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作为 一 本 专门 讲述 虚拟 网 络 的 科技 专著 ,本 书 内 容 涵盖 虚拟 化 技术 、 
两 种 虚拟 化 平台 及 其 管理 接口 ， 综 述 了 虚拟 化 联网 的 现 有 控制 算法 ， 同 时 
描述 了 使 用 Xen 作为 虚拟 化 工具 进行 报 文 转发 的 主要 挑战 ， 并 详细 描述 了 
虚拟 网 络 局 部 控制 的 一 个 建议 方案 。 

本 书 适合 于 计算 机 网 络 /通信 和 领域 的 高 年 级 本 科 生 、 研 究 生 和 研究 人 
员 ， 尤 其 适合 对 未 来 互联 网 感 兴趣 的 读者 。 


译 者 序 


在 不 久 的 将 来 ， 互 联网 将 发 生 巨大 变化 ， 为 迎接 这 种 变化 ， 信 息 领 域 的 从 业者 
需要 及 旱 介 入 。 虚 拟 网 络 作为 构建 未 来 互联 网 的 核心 技术 ， 在 国内 外 被 炒 得 如 火 如 
茶 。 目 前 国内 在 863 计划 、973 计划 以 及 自然 科学 基金 方面 对 未 来 互联 网 都 有 项 目 
支持 ， 但 国外 对 中 国 未 来 互联 网 的 评价 是 处 于 摇篮 阶段 ， 因 此 国内 和 急需 这 方面 的 内 
容 全 面 深入 的 图 书 和 资料 。 在 此 背景 下 ， 我 们 推荐 引入 本 书 。 

就 技术 的 前 瞻 性 而 言 ， 本 书 描述 一 种 多 元 论 的 方法 ， 作 为 后 互联 网 协议 〈 卫 ) 
环境 的 一 种 新 架构 ， 这 是 未 来 互联 网 界 的 普遍 共识 之 一 。 本 书 中 给 出 的 多 数 试验 结 
果 来 自 Horizon 项 目 ， 这 是 由 法 国 ANR (Agence Nationale de la Recherche) 和 巴西 
Finep (Financiadora de Estudos e Projetos) 资助 的 一 个 两 国共 同 参 与 的 研究 项 目 。 
他 山 之 石 可 以 攻 玉 ， 希 望 借 此 促进 国内 未 来 互联 网 的 技术 发 展 。 

本 书 内 容 涵盖 虚拟 化 技术 、 两 种 虚拟 化 平台 及 其 管理 接口 ， 综 述 了 虚拟 化 联网 
的 现 有 控制 算法 ， 同 时 描述 了 使 用 Xen 作为 虚拟 化 工具 进行 报 文 转发 的 主要 挑战 ， 
并 详细 描述 了 虚拟 网 络 局 部 控制 的 一 个 建议 方案 。 本 书 结构 如 下 : 

第 1 章 讨论 虚拟 化 技术 ， 描 述 Xen, VMware 和 OpenVZ 虚拟 化 的 主要 特征 并 识 
别 出 它们 的 性 能 折 中 ; 第 2 章 详细 描述 Xen 和 OpenFlow 虚拟 化 平台 ， 并 给 出 二 者 
的 性 能 分 析 ; 第 3 章 讨论 在 前 一 章 讨论 的 两 种 平台 的 管理 工具 ; 第 4 章 描 述 语 境 感 
知 的 技术 和 多 智能 体系 统 ; 第 5 章 讨论 虚拟 化 联网 的 现 有 控制 算法 ， 也 分 析 了 使 用 
Xen 作为 虚拟 化 工具 进行 报 文 转发 的 主要 挑战 ， 并 详细 描述 了 虚拟 网 络 局 部 控制 的 
一 种 提案 ; 第 6 章 描述 引导 系统 ， 给 出 一 个 多 智能 体 自 管理 原型 ; 第 7 章 讨论 管理 
和 控制 功能 ; 第 8 章 详细 地 描述 了 用 于 系统 架构 的 虚拟 化 技术 。 

本 书 由 王 玲 芳 负责 第 1 ~3 章 的 翻译 、 全 书 统 稿 和 校对 工作 ， 冯 玉 芬 负责 第 4 ~6 章 
的 翻译 工作 ， 母 景 琴 负责 第 7 ~8 章 的 翻译 工作 。 本 书 在 翻译 过 程 中 ， 李 虹 、 潘 东升 、 
FAR. RUN, ERR, RR. BRD. SHB. EDA, ERP SARE IHD 
的 翻译 工作 ， 在 此 表示 感谢 。 同 时 感谢 机 械 工业 出 版 社 ， 感 谢 出 版 社 的 编辑 和 相关 同志 。 

需要 指出 的 是 ， 本 书 的 内 容 仅 代表 原作 者 个 人 的 观点 和 见解 ， 并 不 代表 译 者 及 
其 所 在 单位 的 观点 。 男 外 ， 由 于 翻译 时 间 比 较 仓 促 ， 疏 漏 、 错 误 之 处 在 所 难免 ， 冤 
请 读者 原谅 和 指正 。 
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当前 ， 研 究 共 同体 存在 大 量 积 极 的 工作 来 重新 思考 互联 网 架构 ， 应 对 互联 网 当 
前 的 限制 并 支持 新 的 需求 。 许 多 研究 人 员 得 出 结论 ， 对 于 所 有 用 户 和 网 络 提供 商 的 
需求 而 言 ， 不 存在 均码 (one-size-fits-all) 的 解决 方案 ， 因 此 倡议 一 种 多 元 论 的 网 
络 架 构 。 这 种 新 的 架构 彻底 改变 了 互联 网 ， 因 为 它 允 许 不 同 协议 栈 的 共存 ， 在 同一 
物理 基层 上 同时 运行 。 因此， 本 书 描述 一 种 多 元 论 的 方法 ， 作 为 后 互联 网 协议 
(IP) 环境 的 一 种 新 架构 。 这 种 后 IP 架构 主要 基于 带 有 一 个 引导 系统 的 虚拟 网 络 ， 
它 能 够 处 理 各 种 约束 。 这 种 引导 系统 是 面向 智能 的 ， 并 有 助 于 选择 最 佳 参数 ， 通 过 
来 自 多 智能 体系 统 的 机 制 ， 优 化 网 络 的 行为 。 确 实 ， 面 向 自治 的 架构 与 网 络 设备 的 
每 部 分 (路 由 器 、 设 备 等 ) 相关 联 ， 这 是 一 种 身 临 其 境 的 方法 ， 将 被 用 来 确定 语 
境 ， 并 选择 和 优化 控制 算法 和 参数 。 

本 书 建议 使 用 的 后 IP 网 络 的 另 一 个 非常 重要 的 概念 是 网 络 虚拟 化 ， 它 将 网 络 
抽象 为 虚拟 域 (分 片 / 基 层 ) 。 一 个 虚拟 域 代表 虚 拟 路 由 器 而 不 是 物理 路 由 器 实例 
的 一 个 一 致 的 功能 组 。 在 这 个 动态 的 多 栈 网 络 中 ， 多 个 虚拟 网 络 共存 于 一 个 共享 的 
基层 之 上 。 这 些 域 将 使 用 引导 系统 来 分 配 物 理 资 源 ， 并 确定 哪个 虚拟 网 络 将 由 一 名 
客户 使 用 。 在 这 个 语 境 中 ， 一 个 服务 提供 商 将 能 够 同时 运行 具有 不 同性 能 和 安全 等 
级 的 多 个 端 到 端 服 务 。 必 要 时 ， 可 创建 和 删除 虚拟 网 络 。 虚 拟 化 支持 网 络 的 物理 资 
源 更 好 地 加 以 使 用 ， 为 客户 带 来 适合 的 网 络 。 

在 本 书 中 给 出 的 多 数 试验 结果 来 自 Horizon 项 目 ， 这 是 由 法 国 ANR (Agence 
Nationale de la Recherche) 和 巴西 Finep (Financiadora de Estudos e Projetos) 资助 的 
一 个 两 国共 同 参 与 的 研究 项 目 。 这 个 国际 团体 由 5 个 学 术 和 3 个 业界 合作 方 组 成 。 
学 术 合 作 方 是 UPMC 一 巴黎 第 6 (Laboratoire d' Informatique de Paris 6-LIP6 , Tele- 
com SudParis, Universidade Federal do Rio de Janeiro ( UFRJ) , Universidade Estadual 
de Campinas (Unicamp) 和 Pontifícia Universidade Católica do Rio de Janeiro ( PUC- 
Rio) 。 业 界 合作 方 是 Ginkgo-Networks SA (引导 知识 平面 方面 的 工作 ) 、Devoteam 
(研究 融合 基础 设施 ) 和 Netcenter Informática LTDA (研究 网 络 设备 ) 。 

本 书 第 1 章 由 Luis Henrique M. K. Costa 撰写 ， 讨 论 虚 拟 化 技术 ， 基 本 上 而 言 ， 
这 使 我 们 可 共享 计算 资源 ， 即 将 一 个 物理 计算 环境 切片 为 相互 隔离 的 虚拟 计算 环 
境 。 本 章 描 述 了 Xen, VMware 和 OpenVZ 虚拟 化 的 主要 特征 并 识别 出 它们 的 性 能 折 
中 。 就 一 台 虚 拟 路 由 器 所 用 的 资源 一 一 CPU、RAM 内 存 、 硬 盘 和 网 络 而 言 ， 给 出 
虚拟 化 工具 的 性 能 结果 。 感 谢 Marcelo Duffles Donato Moreira, Carlo Fragni, Diogo 
Menezes Ferrazani Mattos 和 Lyno Henrique Gonçalves Ferraz， 是 他 们 定义 了 基准 ， 并 
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实施 了 性 能 测试 。 

第 2 章 由 Miguel Elias M. Campista 撰写 ， 详 细 描 述 了 Xen 和 OpenFlow 虚拟 化 平 

， 并 给 出 了 二 者 的 性 能 分 析 。 选 择 这 两 个 平台 作为 Horizon 项 目 中 所 开发 新 提案 
的 基础 。 本 章 也 定义 了 网 络 虚 拟 化 基础 设施 必须 提供 的 原 语 ， 这 就 使 引导 平面 可 管 
理 虚 拟 网 络 单元 。 感 谢 Natalia Castro Fernandes, Marcelo Duffles Donato Moreira, 
Lyno Henrique Concalves Ferraz, Rodrigo de Souza Couto, Hugo Eiji Tibana Carvalho, 
是 他 们 定义 了 接口 ， 并 实施 了 试验 。 

第 3 章 由 Igor M. Moraes 撰写 ， 给 出 了 在 前 一 章 讨论 的 两 种 平台 的 管理 工具 。 
为 了 控制 和 管理 网 络 单元 ， 定 义 了 网 络 虚 拟 化 基础 设施 必须 提供 的 5 个 原 语 : 
instantiate (实例 化 ) delete (删除 ) migrate (迁移 ) monitor (监测 ) 和 set ( 设 
置 ) 。 为 了 验证 概念 ， 使 用 针对 两 种 平台 提出 的 接口 ， 设 计 和 开发 了 Xen 平台 的 一 
个 原型 和 OpenFlow 平台 的 另 一 个 原型 。 感 谢 Diogo Menezes Ferrazani Mattos Lyno 
Henrique Gongalves Ferraz, Pedro Silveira Pisa, Hugo Eiji Tibana Carvalho, Natalia 
Castro Fernandes, Daniel José da Silva Neto, Leonardo Pais Cardoso, Victor Pereira da 
Costa, Victor Torres da Costa, Rodrigo de Souza 和 Rafael dos Santos Alves， 他 们 是 工 
具 的 主要 开发 人 员 ， 并 实施 了 试验 。 

第 4 章 由 Edmundo R. M. Madeira 和 Guy Pujolle 撰写 ， 描 述 了 语 境 感知 的 技术 
和 多 智能 体系 统 。 引 导 系 统 是 基于 多 智能 体 范 型 、 以 一 种 分 布 式 方式 开发 的 ， 目 的 
是 增加 网 络 的 规模 扩展 性 。 由 此 ， 给 出 了 构造 智能 体 的 三 个 平台 

$$ 5 章 由 Miguel Elias M. Campista 撰写 ， 讨 论 虚 拟 化 联网 的 现 有 控制 算法 。 本 
章 也 分 析 了 使 用 Xen 作为 虚拟 化 工具 进行 报 文 转发 的 主要 挑战 ， 并 详细 描述 了 虚 
拟 网 络 局 部 控制 的 一 种 提案 。 在 每 个 物理 节点 内 ， 这 个 提案 给 出 了 虚拟 网 络 隔离 ， 
确保 了 每 个 虚拟 网 络 获得 的 服务 水 平 ， 即 使 存在 行为 不 当 的 虚拟 网 络 的 情况 下 也 是 
如 此 。 在 本 章 描述 的 称 为 XNetMon 的 安全 虚拟 网 络 监测 器 ， 是 由 Natalia Castro Fer- 
nandes 和 Otto Carlos Muniz Bandeira Duarte 提出 和 评估 的 。 

第 6 3€ th Edmundo R. M. Madeira 和 Nelson Luís S. da Fonseca 撰写 ， 描 述 了 引导 
系统 。 思 路 是 引入 一 种 自治 系统 ， 以 此 处 理 通信 网 络 日 渐 增 长 的 复杂 性 ， 从 处 理 需 
要 人 类 王 预 的 任务 中 解放 所 需 的 网 络 管理 员 ， 这 些 任务 如 设置 管理 策略 和 提升 任务 
的 自动 化 程度 一 一 系统 配置 和 优化 、 灾 难 恢复 和 安全 。 给 出 了 一 个 多 智能 体 自 管理 
原型 。 试 验 是 由 Carlos Roberto Senna 和 Daniel Macédo Batista 实施 的 。 

第 7 章 由 Otto Carlos M. B. Duarte #5, 讨论 管理 和 控制 功能 。 在 监测 和 得 到 
使 用 概要 之 后 ， 知 识 平面 使 用 预测 机 制 ， 预 测 式 地 检测 在 虚拟 网 络 配 置 中 更 新 的 必 
要 性 。 知 识 平面 存储 信息 ， 协 助 管理 决策 并 执行 网 络 维 护 。 模 糊 控制 方案 是 由 
Hugo Eiji Tibana Carvalho 提出 并 评估 的 ，ADAGA 方案 是 由 Pedro Silveira Pisa 提出 
并 评估 的 。 

第 8 Æ H Otto Carlos M. B. Duarte #5 , 详细 地 描述 了 用 于 系统 架构 的 虚拟 化 
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技术 。 基 于 Xen 的 路 由 器 、OpenFlow 交换 机 和 称 为 XenFlow 的 这 二 者 的 组 合体 ， 
被 用 于 集成 机 器 和 网 络 虚拟 化 技术 。XenFlow 的 关键 思路 是 使 用 OpenFlow 管理 流 ， 
同时 也 用 于 支持 没有 报 文 丢失 条 件 下 的 流 迁 移 ， 并 使 用 Xen 提供 路 由 和 报 文 转发 。 
XenFlow 是 由 Diogo Menezes Ferrazani Mattos 和 Otto Carlos Muniz Bandeira Duarte 提出 
和 评估 的 。 

真诚 感谢 Carlos José Pereira de Lucena, Firmo Freire, Djalmal Zeghlache, Jean- 
François Perrot, Thi-Mai-Trang Nguyen 和 Zahia Guessoum 等 教授 。 也 感谢 Marcelo 
Macedo Achá 和 Claudio Marcelo Torres de Medeiros。 真 诚 感谢 原始 思想 和 文章 的 葡 
萄 牙 的 作者 们 ， 在 本 书 中 没有 引用 他 们 的 文献 ， 但 确实 是 引入 了 他 们 的 概念 在 本 书 
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在 本 书 中 ,将 焦点 放 在 基于 多 元 化 方法 的 一 种 新 颖 互联 网 架构 上 。 一 个 多 元 化 
架构 的 例子 如 图 1. 1 所 示 。 在 图 1. 1 中 ， 每 个 路 由 器 层 代 表 具 有 独立 协议 栈 的 一 个 
不 同 网 络 ， 它 们 共享 来 自 底层 处 基础 网 络 设施 的 各 种 资源 。 虚 拟 化 是 使 这 样 一 种 多 
元 化 架构 成 为 可 能 的 一 项 关键 技术 。 虚 拟 化 是 这 样 一 项 技术 ， 基 本 上 说 ， 它 支持 计 
算 资源 的 共享 [POP 74] 。 虚 拟 化 将 一 个 真实 计算 环境 分 成 虚拟 计算 环境 ， 这 些 环 
境 是 相互 隔离 的 ， 并 按照 从 真实 的 非 虚 拟 化 的 环境 中 所 期 望 的 那样 ， 与 上 面 的 计算 
层 交 互 。 一 个 虚拟 化 环境 和 一 个 非 虚 拟 化 环境 之 间 的 比较 如 图 1.2 所 示 。 图 的 左手 
侧 给 出 一 个 传统 的 计算 环境 ， 其 中 各 项 应 用 是 在 一 个 操作 系统 (OS) 之 上 执行 的 ， 
操作 系统 控制 基础 硬件 。 在 图 的 右手 侧 ， 给 出 一 个 虚拟 化 环境 ， 其 中 一 个 虚拟 化 层 
支持 多 个 OS 并 行 运行 ， 每 个 0S 都 有 其 自己 的 应 用 ， 并 控制 它们 到 硬件 的 访问 。 
当 处 理 虚 拟 网 络 时 ， 考 虑 路 由 器 资源 ， 如 处 理 器 、 内 存 、 硬 盘 、 队 列 和 带宽 ， 这 和 
计算 环境 虚拟 化 时 是 一 样 的 。 一 个 虚拟 路 由 器 和 链 路 集合 被 称 作 一 个 虚拟 网 络 。 因 
此 ， 使 用 虚拟 化 技术 ， 可 有 多 个 并 行 的 虚拟 网 络 ， 每 个 网 络 都 有 一 个 特定 的 网 络 协 
议 栈 ， 共 享 单 个 物理 网 络 基 础 设施 ， 如 图 1. 1 所 示 。 


Hi 


硬件 





图 1.1 多 元 化 架构 范例 图 1.2 虚拟 化 环境 范例 


虚拟 化 普遍 实现 为 称 为 hypervisor 的 一 个 软件 层 ， 它 负责 在 多 个 虚拟 环境 或 虚 
JUL (Virtual Machine, VM) 之 间 复 用 计算 资源 。 每 个 VM 运行 在 hypervisor 之 上 ， 
由 hypervisor 控制 到 物理 资源 的 访问 。 存 在 不 同 的 hypervisor 和 虚拟 化 技术 。 本 章 给 
出 最 普遍 的 虚拟 化 工具 (Xen [BAR 03，CHI 08] VMware ( VMW 07a] 和 Open- 
VZ [KOL06]) 的 主要 特征 概述 并 识别 性 能 折 中 问题 。 就 一 台 虚 拟 路 由 器 的 所 关 
注资 源 方面 [中 央 处 理 单元 (CPU), 、 随 机 读 取 内 存 (RAM) 内 存 、 硬 盘 和 网 络 ] ， 
该 项 研究 比较 了 虚拟 化 工具 的 性 能 。 虚 拟 路 由 器 使 用 CPU 处 理 到 达 报 文 ， 并 依据 
转发 表 路 由 报 文 。 使 用 RAM 存储 转发 表 。 硬 盘 的 主要 用 途 是 存储 VM mus (EH 
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网 络 资源 转发 报 文 ， 这 是 一 台 路 由 器 的 主要 任务 。 对 于 虚拟 路 由 器 的 正常 操作 ， 
CPU, RAM 和 网 络 是 虚拟 化 额外 负担 的 最 敏感 资源 。 磁 盘 性 能 额外 负担 是 人 们 所 
关注 的 ， 原 因 是 它 影 响 新 路 由 器 的 实例 化 和 虚拟 路 由 器 的 迁移 。 为 更 好 地 理解 由 这 
种 工具 引入 的 额外 负担 ， 只 要 可 能 的 情况 ， 也 给 出 原生 的 性 能 。 

因为 虚拟 化 可 导致 时 间 敏 感应 用 的 误 操作 (malfunction) [VMW 08] ， 所 以 使 
用 与 相关 工作 中 所 用 技术 [XEN 07, XMW 07b] 不 同 的 一 种 技术 。 将 结果 基于 这 
样 的 时 间 ， 即 一 个 虚拟 化 系统 完成 一 项 任务 所 需 的 时 间 ， 是 从 一 个 外 部 非 虚拟 化 计 
算 机 测量 得 到 的 。 

实施 了 两 种 类 型 的 试验 。 第 一 种 类 型 的 试验 目标 是 分 析 由 额外 层 诱发 的 性 能 损 
失 (hypervisor) 是 由 虚拟 化 工具 引入 的 。 为 取得 这 个 目标 ， 在 第 一 种 类 型 的 试验 
中 ， 仅 有 一 个 VM 运行 在 虚拟 化 软件 之 上 。 将 原生 Linux 的 性 能 与 Xen, VMware 和 
OpenVZ 虚拟 化 软件 的 性 能 进行 了 比较 。 结 果 表 明 ，Xen 是 基于 PC 的 路 由 器 虚拟 化 
的 一 种 良好 适用 物 (f), ， 具 有 可 接受 的 虚拟 化 额外 负担 (这 在 1.4.6 节 做 了 展 
示 ) ， 支 持 hypervisor 修改 ， 是 开源 的 ， 并 提供 虚拟 路 由 器 灵活 性 ， 原 因 是 它 具 有 
一 个 虚拟 硬件 接口 ， 支 持 在 不 同 虚拟 路 由 器 中 使 用 不 同 的 0S。 男 外， 单个 VM iX 
验 为 第 二 种 类 型 的 试验 (处理 多 个 VM) 提供 一 个 基线 。 第 二 个 试验 集合 深入 探讨 
所 选中 的 虚拟 化 工具 如 何 随 着 并 行 运行 的 VM 数量 而 规模 扩展 的 。 这 些 种 类 的 测试 
有 如 下 目标 ， 即 澄清 实例 化 的 多 个 VM ( 消耗 同样 的 资源 ) 如 何 影响 总 体 性 能 ， 且 
虚拟 化 工具 如 何 处 理 公平 性 。 在 这 种 类 型 的 测试 中 ， 也 验证 各 VM 间 CPU 核 分 配 
的 不 同方 案 如 何 影 响 总 体 性 能 。 

在 1.1 节 ， 给 出 测试 虚拟 化 工具 所 用 的 技术 。 在 1.2 节 ， 详 细 描 述 虚 拟 化 工 
A. 1.3 节 描 述 测试 方法 论 ， 并 给 出 测试 床 。1.4 节 给 出 虚拟 化 工具 比较 中 使 用 的 
基准 测试 ，1.4.6 节 和 1.4.7 节 给 出 性 能 比较 结果 。 最 后 ,在 1.5 节 给 出 本 章 的 


结语 。 


1.3. 虚拟 化 技术 


为 了 更 好 地 理解 所 比较 的 虚拟 化 工具 ， 重 要 的 是 识别 不 同 的 虚拟 化 技术 。 本 节 
描述 Xen, VMware 和 OpenVZ 使 用 的 概念 和 技术 。 

虚拟 化 有 许多 不 同 的 定义 ， 但 就 虚拟 化 是 共享 计算 资源 、 在 虚拟 环境 之 间 赋 子 
一 定 程度 的 隔离 的 一 项 技术 方面 ， 这 些 定义 是 一 致 的 。 依 据 Popek 和 Goldberg 
[POP74] ， 经 典 定义 是 ， 虚 拟 化 是 提供 VM 的 一 项 技术 ， 这 些 VM 是 底层 硬件 的 高 
效 被 隔离 复制 。 如 今 ， 这 个 概念 不 仅 可 在 硬件 上 一 般 化 ， 而 且 可 在 任何 计算 资源 上 
一 般 化 ， 作 为 一 个 OS 内 核 或 编程 语言 (如 Java 和 C#) 使 用 的 VM 抽象 。 

从 虚拟 目标 中 出 现 了 几 项 挑战 。 第 一 个 挑战 是 调用 所 有 虚拟 环境 访问 相同 的 底 
层 计算 资源 。 对 于 硬件 虚拟 化 ， 共 享 资源 是 CPU、RAM、 存 储 和 网 络 。RAM 共享 
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访问 可 以 不 同方 式 完成 。 虚 拟 环境 可 被 赋予 到 虚拟 内 存 空 间 (可 被 转换 为 物理 
RAM， 这 和 0S 的 做 法 相同 ) 的 访问 权限 。 另 一 种 方法 是 让 VM 知道 它们 的 虚拟 化 
特征 ， 并 人 允许 它们 在 由 hypervisor 指派 一 个 区 域内 存 片 之 后 ， 直 接 访问 内 存 。CPU 
共享 可 以 几 种 方式 完成 ， 并 可 使 用 诸如 轮转 法 、 加 权 的 轮转 法 、 应 需 分 配 和 其 他 方 
法 等 机 制 做 到 。 一 般 而 言 ， 输 入 /输出 (L/0) 可 使 用 存储 交换 数据 的 缓冲 这 样 一 
种 统一 的 方式 加 以 处 理 ， 这 些 数据 是 在 物理 外 设 和 虚拟 外 设 之 间 复 用 和 解 复 用 的 。 

试验 使 用 商用 的 基于 x86 的 硬件 ， 这 对 虚拟 化 施加 额外 挑战 。20 世纪 70 年 
代 ， 在 虚拟 化 开发 的 开始 阶段 ， 所 设计 硬件 都 是 支持 虚拟 化 的 。 大 型 主机 有 这 样 的 
指令 集 ， 其 中 处 理 资源 分 配 和 使 用 的 所 有 指令 都 是 特权 指令 ， 即 程序 要 求 一 定 的 
CPU 特权 执行 等 级 。 在 这 些 CPU 架构 中 ， 可 使 用 称 作 “去 特权 ” [ADA 06] 法 的 
一 项 技术 做 到 硬件 虚拟 化 ， 其 中 虚拟 化 OS 是 在 一 个 非特 权 语 境 中 执行 的 ， 目 的 是 
无 论 何 时 资源 分 配 或 使 用 指令 将 被 执行 时 ， 就 产生 陷阱 。 出 于 这 个 原因 ，hypervi- 
sor 将 截获 陷阱 ， 并 以 一 种 对 其 他 VM 安全 的 方式 来 模拟 所 需 资源 的 分 配 或 使 用 。 
依据 Popek 和 Coldberg [POP 74] 的 说 法 ， 为 硬件 虚拟 化 构造 一 个 hypervisor 存在 
三 个 需求 : 0 效率， 这 意味 着 来 自 虚拟 CPU (vCPU) 之 指令 集 的 一 个 大 型 子 组 应 
该 直接 在 真实 CPU 中 执行 ， 不 需要 来 自 hbypervisor 的 任何 干预 ;@ 资 源 控 制 ， 这 意 
味 着 hypervisor 必须 对 所 有 资源 具有 完全 的 控制 ，@ 等 价 性 ， 这 意味 着 hypervisor 必 
须 向 虚拟 环境 提供 等 价 于 原始 接口 的 一 个 虚拟 接口 。20 世纪 70 年 代 的 大 型 主机 将 
有 利于 构造 hypervisor， 原 因 是 使 用 去 特权 技术 就 可 做 到 VM 隔离 。 对 于 基于 x86 的 
硬件 ， 情 况 就 不 是 这 样 的 ， 原 因 是 出 于 优化 目的 ， 基 于 x86 的 硬件 指令 集 具 有 访问 
共享 资源 的 指令 ， 但 不 要 求 一 个 特权 化 的 语 境 。 此 外 ， 基 于 x86 的 指令 集 包含 这 样 
的 一 组 指令 ， 它 们 被 归 类 为 对 特权 等 级 是 敏感 的 ， 其 中 指令 以 取决 于 当前 特权 等 级 
的 一 种 不 同方 式 执行 。 如 果 一 个 去 特权 的 OS 执行 一 条 敏感 的 指令 ， 它 将 悄 无 声息 
地 失败 ， 原 因 是 它 不 会 产生 一 条 陷阱 ， 而 且 它 也 不 以 OS 所 拟 设 的 方式 执行 。 为 处 
理 这 些 基 于 x86 的 硬件 问题 ， 存 在 几 项 解决 方法 ， 在 描述 不 同 虚拟 化 技术 的 后 面 各 
节 中 将 给 出 。 


1.1.1 完全 虚拟 化 


完全 虚拟 化 是 这 样 一 种 虚拟 化 技术 ， 其 中 虚拟 化 所 有 的 原始 接口 ， 且 输出 给 虚 
拟 环 境 的 各 接口 与 原始 接口 完全 相同 。 在 这 种 方法 中 ，guest OS (寄居 OS), ， 即 驻 
留 在 VM 内 的 05， 不 需要 修改 ， 直 接 在 VM 内 执行 。 为 处 理 来 自 基 于 x86 硬件 平 
台 的 敏感 指令 ， 可 使 用 不 同 技术 。 一 种 著名 的 技术 是 二 进 制 翻译 。 二 进 制 翻译 检查 
要 执行 的 代码 ， 搜 索 存在 问题 的 指令 ， 并 将 它们 蔡 换 为 模拟 期 望 性 能 的 那些 指令 。 
二 进 制 翻译 的 优势 是 ， 它 支持 应 用 和 0S 在 不 做 修改 的 条 件 下 加 以 使 用 。 不 过 ， 二 
进 制 翻译 诱发 高 的 CPU 额外 负担 ， 因 为 所 有 执行 的 代码 都 必须 做 检查 ， 且 存在 问 
题 的 指令 必须 在 运行 时 加 以 替换 。 


4 虚拟 网 络 一 一 下 一 代 互 联网 的 多 元 化 方法 





最 近 ， 存 在 来 自主 要 硬件 制造 商 的 大 力 投入 来 优化 虚拟 化 。 服 务 器 合并 法 使 用 
虚拟 化 将 具有 空闲 容量 的 几 台 服务 器 替换 到 单个 硬件 ， 该 硬件 具有 较 高 的 利用 率 ， 
其 中 执行 几 个 虚拟 服务 器 。 服 务 器 合并 法 已 经 成 为 共性 实践 ， 它 在 主要 公司 中 削减 
设备 和 维护 成 本 。 出 于 这 个 原因 ，AMD 和 Intel 都 为 在 现代 CPU 中 提供 更 高 效 的 虚 
拟 化 支持 开发 了 各 项 技术 。Intel 虚拟 化 技术 (IVT) 和 AMD 虚拟 化 (AMD-V) 都 
为 完全 虚拟 化 提供 较 佳 的 性 能 ， 方 法 是 引入 两 种 新 的 操作 模式 : root 和 non- root; 
root 操作 模式 由 hypervisor 使 用 ， 类 似 于 常规 CPU 操作 ， 提 供 完 全 的 CPU 控制 和 传 
统 的 特权 等 级 的 四 个 环 。non-root 模式 是 用 于 VM 的 执行 的 。 在 这 种 模式 中 ，CPU 
也 提供 特权 等 级 的 四 个 环 ， 寄 居 0S 不 再 在 一 个 去 特权 化 环 中 执行 ， 而 是 在 环 0 中 
执行 ， 这 个 环 就 是 为 之 设计 的 。 无 论 何 时 寄居 OS 执行 一 条 存在 问题 的 指令 ，CPU 
就 产生 一 个 陷阱 ， 并 将 控制 返 给 hypervisor， 来 处 理 这 条 指令 。 采 用 这 种 CPU 支持 ， 
二 进 制 翻译 就 不 再 是 必要 的 ， 且 完全 虚拟 化 hypervisor 就 极 大 地 增加 了 它们 的 性 能 。 


1.1.2 半 虚 拟 化 


半 虚 拟 化 是 这 样 一 种 虚拟 化 技术 ， 其 中 寄居 OS 与 hypervisor 协作 得 到 较 佳 的 
性 能 。 在 半 虚 拟 化 中 ， 修 改 寄 居 0S， 无 论 何 时 执行 一 条 存在 问题 的 指令 ， 就 调用 
hypervisor。 敏 感 指 令 被 蔡 换 为 调用 hypervisor 的 一 条 虚拟 化 感知 指令 。 出 于 这 个 原 
因 ，hypervisor 不 需要 为 存在 问题 的 指令 而 监测 VM 执行 ， 相 比 于 使 用 二 进 制 翻译 
的 完全 虚拟 化 ， 这 极 大 地 降低 了 额外 负担 。 折 中 代价 是 ，0S 必须 被 修改 和 重新 编 
译 ， 产 生 半 虚 拟 化 的 OS 映像 。 为 进行 hypervisor 调用 ， 需 要 半 虚 拟 化 的 OS 映像 。 
这 阻碍 了 遗留 OS 的 虚拟 化 ， 并 要 求 OS 开发 商 的 协作 才能 完成 。 


1.2 虚拟 化 工具 


本 节 描 述 主要 的 虚拟 化 技术 ， 并 给 出 Xen, VMware 和 OpenVZ 的 性 能 评估 
结果 。 


1.2.1 Xen 


Xen 是 一 个 开源 hypervisor， 提 出 它 ， 为 的 是 运行 在 商用 硬件 平台 上 ， 它 使 用 
半 虚 拟 化 技术 [BAR 03 ] Xen 使 我 们 可 在 单个 物理 机 器 上 同时 运行 多 个 VM。Xen 
架构 由 一 个 hypervisor (位 于 物理 硬件 之 上 ) 和 hypervisor 之 上 的 几 个 VM 组 成 ， 如 
图 1.3 ax. + VM 可 有 其 自己 的 OS 和 应 用 。hypervisor 控制 到 硬件 的 访问 ， 也 
管理 由 各 VM 共享 的 可 用 资源 。 另 外 ， 为 提供 可 靠 的 和 高 效 的 硬件 支持 [EGIOT7], 
设备 驱动 被 放 在 一 个 孤立 的 VM [ 称 作 Domain 0 (dom0) ] 中 。 因 为 dom0 具有 对 
物理 机 器 硬件 的 完整 访问 权限 ， 所 以 相 比 其 他 VM， 它 有 特权 ,参见 用 户 域 
(domUs) 。 另 外 ，domUs 有 虚拟 驱动 ， 称 作 前 台 驱 动 ， 它 与 位 于 dom0 中 的 后 台 驱 
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动 通信 来 访问 物理 硬件 。 接 下 来 简短 地 解释 Xen 如 何 将 所 关注 的 每 种 机 器 资源 
(处 理 器 、 内 存 和 LO 设备 ) 虚拟 化 为 一 台 虚 拟 路 由 响 。 


驱动 域 用 户 域 用 户 域 2 ”用 户 域 n 
(dom0) (domU1) . ( ) "(domUn) - 


虚拟 设备 设备 | 虚拟 设备 ， 
RB fel Al fen 


硬件 





fe- 前 台 接 口 , be 一 后 人 台 接 口 , ph 物理 接口 


图 1.3 Xen 架构 


通过 将 vCPU 指派 给 VM, Xen 对 处 理 吉 实施 虚拟 化 。vCPU 是 在 每 个 VM 内 运 
行进 程 可 看 到 的 各 CPU。Xen hypervisor 实现 一 个 CPU 调度 器 ， 动 态 地 将 一 个 物理 
CPU 在 某 个 时 段 期 间 映 射 到 每 个 vCPU。Xen 所 使 用 版 本 (3.2) 的 默认 调度 器 是 
信用 调度 器 ， 实 施 一 个 比例 性 的 CPU 共享 。 依 据 指派 给 各 VM 的 权重 ， 信 用 调度 
需 将 CPU 资源 分 配给 每 个 VM (或 更 具体 而 言 ， 是 分 配给 每 个 vCPU ) 。 信 用 调度 
器 在 对 称 多 处 理 (SMP) 主机 上 也 可 以 是 工作 守恒 的 。 这 意味 着 调度 器 允许 物理 
CPU 运行 在 100% 处 ， 如 果 任 何 VM 有 工作 要 做 。 在 一 个 工作 守恒 的 调度 器 中 ， 对 
一 个 VM 可 使 用 的 CPU 资源 量 是 没有 限制 的 。 

在 Xen 中 的 内 存 分 配 目前 是 以 静态 方式 完成 的 。 每 个 VM 接收 定量 的 内 存 空 
间 ， 这 是 在 其 创建 时 刻 被 指定 的 。 另 外 ， 为 要 求 来 自 hypervisor 的 最 小 干预 ， 各 
VM 负责 分 配 和 管理 硬件 页 表 的 相应 部 分 。 当 一 个 VM 每 次 要 求 一 个 新 的 页 表 时 ， 
它 就 从 其 自己 的 内 存 空 间 中 分 配 并 初始 化 一 个 页 ， 且 将 之 注册 到 Xen hypervisor， 
后 者 负责 确保 隔离 性 。 

在 Xen 中 ， 使 用 共享 内 存 异 步 缓冲 描述 符 环 ， 来自 WO 设备 的 数据 被 传递 进 
出 每 个 VM. Xen hypervisor 的 任务 是 实施 确认 检查 。 例 如 ， 检 查 各 缓冲 被 包含 在 一 
个 VM 内 存 空 间 内 。 通 过 使 用 它 的 原生 设备 驱动 ，dom0 直接 访问 YORE, E 
代表 domUs 实施 L/O 操作 。 另 外 ，domUs 使 用 其 后 台 驱 动 从 dom0 请 求 设 备 访问 
[MEN 06 ] 。 一 种 特殊 情形 的 LO 虚拟 化 是 网 络 虚拟 化 ， 它 负责 将 来 自 物 理 接 口 的 
到 达 报 文 解 复 用 到 各 VM， 同 时 复 用 由 各 VM 产生 的 外 发 报 文 。 图 1.4 所 示 为 Xen 
使 用 的 默认 网 络 架构 。 对 于 每 个 domU Xen 创建 由 这 个 domU 要 求 的 虚拟 网 络 接 
口 。 这 些 接口 也 称 作 前 台 接 口 ，domUs 用 之 进行 其 所 有 的 网 络 通信 。 此 外 ， 在 
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dom0 中 创建 后 台 接口 ， 对 应 于 在 一 个 domU 中 的 每 个 前 台 接口 。 为 在 后 台 和 前 台 
接口 之 间 交 换 数据 ，Xen 使 用 一 个 VO 通道 ， 它 使 用 一 种 零 复制 机 制 。 这 种 机 制 将 
包含 数据 的 物理 页 重新 映射 到 目标 域 [MEN 06] 。 后 台 接 口 作 为 dom0 中 虚拟 接口 
的 代理 。 前 台 接口 和 后 台 接 口 通过 IO 通道 相互 连接 。 在 图 1.4 中 ，dom0 中 的 后 
台 接 口 被 连接 到 物理 接口 ， 同 时 通过 一 个 虚拟 网 桥 相 互 连 接 。Xen 使 用 的 这 种 默认 
架构 被 称 作 网 桥 模式 。 因 此 ，LO 通道 和 网 桥 在 domUs 中 创建 的 虚拟 接口 和 物理 接 
口 之 间 建 立 一 条 通信 路 径 。 


驱动 域 用 户 域 1 
(domU1) 


Ay feo BH fe | 
i 人 





fe- 前 人 台 接口 ，be- 后 人 台 接 口 ，ph- 物 理 接口 
图 1.4 Xen 网 络 架 构 


1.2.2 VMware 


VMware 是 为 端 用 户 和 数据 中 心 顾客 提供 机 器 虚拟 化 平台 的 一 家 公司 。VMware 
虚拟 化 平台 是 基于 全 虚拟 化 概念 的 。 本 项 工作 评估 称 作 VMware ESX Server 的 一 个 
VMware 数据 中 心 类 虚拟 化 平台 。 它 主要 用 于 服务 器 合并 法 ， 且 是 企业 虚拟 化 最 常 
用 组 件 之 一 。VMware ESX Server 目标 是 基于 由 系统 管理 员 设置 的 资源 分 配 策略 ， 
保障 VM 隔离 和 资源 共享 公平 性 。 资 源 共 享 是 动态 的 ， 原 因 是 可 应 需 地 将 资源 分 配 
和 重新 分 配给 各 VM [VMW 05 ] 。 虽 然 这 项 工作 评估 VMware ESX Server 3.5， 但 这 
里 报告 的 信息 部 分 是 来 自 YMware ESX Server 2. 5 的 ， 这 源 于 如 下 事实 ， 即 VMware 
ESX Server 是 一 项 专用 产品 ， 且 就 其 实现 方面 几乎 没有 多 少 信息 。 下 面 的 描述 考虑 
的 是 版 本 2.5， 我 们 认为 在 版 本 2.5 和 3. 5 之 间 没 有 显著 的 改变 。 

如 图 1.5 所 示 ，VMware 架构 由 硬件 接口 组 件 、 虚 拟 机 监测 融 〈VMM )、 
VMkernel 、 资 源 管理 器 和 服务 控制 台 组 成 。 硬 件 接口 组 件 负 责 实 现 硬件 特定 的 功 
能 ， 并 创建 要 提供 给 各 VM 的 一 个 硬件 抽象 。 它 使 各 VM 的 硬件 是 独立 的 。VMM 
负责 CPU 虚拟 化 ， 向 每 个 VM 提供 一 个 vCPU, VMkernel 控制 和 管理 硬件 基层 。 
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VMM 和 VMkernel 一 起 实现 虚拟 化 层 。 资 源 管理 器 是 由 VMkerel 实现 的 。 它 将 底 
层 物 理 资源 在 VM 间 进 行 分 割 ， 为 每 个 VM 分 配 资源 。VMkemel 也 实现 硬件 接口 组 
件 。 服 务 控制 台 实现 各 种 服务 ( 如 启动 、 发 起 虚拟 化 层 和 资源 管理 器 的 执行 )， 并 
运行 各 项 应 用 ， 它 们 实现 支持 、 管 理 和 后 勤 服务 功能 。 


硬件 接口 层 





1.5 VMware 架构 


与 其 他 虚拟 化 工具 一 样 ，VMware ESX Server 虚拟 化 四 种 主要 资源 : CPU, W 
存 、 磁 盘 和 网 络 设备 。 下 面 将 进一步 详细 描述 VMware 是 如 何 虚拟 化 每 种 资源 的 。 

通过 为 每 个 VM 设置 一 个 vCPU， 完 成 CPU 虚拟 化 。VM 不 会 认识 到 它 正 运行 
在 一 个 vCPU 之 上 ,原因 是 vCPU 似乎 都 有 其 自己 的 寄存 器 和 控制 结构 [VMW 
05] 。 一 个 VM 可 有 一 个 或 两 个 vCPU。 当 它 有 一 个 以 上 的 CPU 时 ， 称 作 一 个 SMP 
VM, VMM 负责 CPU 虚拟 化 ,方法 是 设置 系统 状态 ， 并 执行 由 VM 发 出 的 指令 。 

在 一 个 虚拟 化 环境 中 ,与 其 所 设计 的 相 比 ， 寄 居 OS 运行 在 一 个 低 的 特权 等 
级 。 如 在 1. 1 节 所 述 ， 虚 拟 化 CPU 资源 的 一 种 经 典 方法 是 陷阱 和 模拟 (trap- and- 
emulate) ， 这 是 这 样 的 一 种 技术 ， 其 中 VM 尝试 执行 一 条 指令 ， 如 果 它 不 能 在 一 个 
低 的 特权 等 级 被 执行 ， 则 CPU 产生 一 个 要 由 VMM 处 理 的 陷阱 ，VMM 为 寄居 OS 模 
拟 指令 执行 。 不 过 ， 如 在 1. 1 节 所 述 ， 对 于 x86 架构 ， 这 项 技术 是 不 工作 的 ， 原 因 
是 它 有 对 特权 等 级 敏感 的 指令 ， 且 以 与 OS 所 拟 设 的 一 种 不 同方 式 执行 ， 而 不 会 产 
生 一 个 陷阱 。 为 解决 这 个 问题 并 保持 一 个 令 人 满意 的 性 能 ，VMware 组 合 使 用 两 种 
CPU 虚拟 化 技术 : 直接 执行 和 CPU 模拟 。 来 自 一 个 VM 的 用 户 空间 的 指令 ， 直 接 
在 物理 CPU 上 执行 ， 这 是 称 作 直接 执行 的 一 项 技术 。 对 特权 等 级 敏感 的 指令 被 
VMM 捕获 ，VMM 模拟 指令 执行 ， 这 增加 了 性 能 额外 负担 。 组 合 使 用 两 种 技术 的 方 
ik, fii CPU 密集 的 用 户 空间 应 用 具有 接近 原生 系统 的 性 能 。 性 能 损失 取决 于 必须 
要 被 替换 的 敏感 指令 数量 。 
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CPU 调度 是 由 资源 管理 器 完成 的 。CPU 调度 依据 的 是 份额 ， 这 是 用 来 度量 要 
将 多 少时 间 赋 予 每 个 VM 的 单位 。CPU 调度 是 比例 性 份额 的 ， 这 意味 着 赋予 每 个 
VM 的 CPU 时 间 正 比 于 它 拥 有 的 份额 量 占 系统 中 份额 总 量 的 多 少 。 在 一 个 SMP VM 
H, CPU 分 配 是 不 同 的 。 资 源 管理 器 将 vCPU 一 个 一 个 地 调度 到 物理 CPU E, 3f 
尝试 同时 执行 它们 。VMware CPU 调度 尝试 在 各 VM 的 CPU 分 配 之 间 保 持 公平 性 。 
当 一 个 VM 被 中 止 或 空闲 时 ， 资 源 管 理 器 调度 它 的 CPU 时 间 到 正在 运行 的 其 他 
VM 上 。 

VMware 的 内 存 虚拟 化 方法 是 创建 内 存 地 址 翻译 的 一 个 新 层次 。 它 是 这 样 完 成 
的 ， 即 向 每 个 寄居 OS 提供 一 个 虚拟 页 表 ， 这 对 内 存 管理 单元 (MMU) [BAR 03] 
是 不 可 见 的 。 在 一 个 VMware 虚拟 化 环境 内 ， 寄 居 OS 访问 提供 给 VM 的 一 个 虚拟 
内 存 空 间 。 寄 居 OS 页 表 在 寄居 虚拟 页 和 寄居 虚拟 “物理 ”页 间 维 持 一 致 性 。 与 在 
一 个 原生 OS 虚拟 内 存 中 一 样 ， 寄 居 虚 拟 页 是 一 个 VM 内 的 虚拟 内 存 页 。 但 是 ， 一 
种 寄居 虚拟 页 面 机 制 不 能 直接 访问 物理 内 存 ， 它 访问 寄居 虚拟 “物理 ”内 存 。 寄 
居 虚 拟 “物理 ”内 存 是 物理 内 存 的 一 个 抽象 。 当 一 个 寄居 OS 尝试 执行 访问 物理 内 
存 的 一 条 指令 时 ，VMM 捕获 这 条 指令 ， 且 其 地 址 被 翻译 成 真实 的 物理 地 址 。 寄 居 
虚拟 “物理 ”内 存 总 是 连续 的 , 但 可 被 映射 到 不 连续 的 真实 物理 内 存 之 上 。 
VMware 内 存 共 享 遵循 管理 策略 ， 它 们 (例如 ) 定义 要 由 一 个 VM 访问 的 最 小 和 最 
大 物理 内 存量 。 也 可 能 出 现 这 种 情况 ， 即 各 VM 消耗 的 量 大 于 物理 机 器 上 可 用 的 物 
理 内 存 总 量 。 这 是 可 能 的 ， 因 为 主机 系统 也 可 进行 交换 ， 这 就 像 在 现代 OS 中 所 用 
的 传统 虚拟 内 存 机 制 一 样 。 内 存 共享 调度 器 就 像 CPU 调度 器 一 样 工作 ， 但 考虑 内 
存 份额 而 不 是 CPU 份额 。 

VMware 的 VO 虚拟 化 方法 是 模拟 性 能 关键 的 设备 ， 如 磁盘 和 网 络 接口 卡 。 设 
备 访问 由 VMkernel 模拟 。VMkernel 调用 硬件 接口 层 ， 它 负责 访问 设备 驱动 ， 并 在 
物理 硬件 设备 上 执行 操作 。 对 于 存储 虚拟 化 ， 向 VM 提供 一 个 小 型 计算 机 系统 接口 
(SCSI) 驱动 。 各 VM 访问 这 个 驱动 ， 且 VMkernel 捕获 驱动 访问 指令 ， 并 像 主 机 文 
件 系 统 中 的 文件 一 样 实现 VM 磁盘 。 

就 网 络 L/O 虚拟 化 而 言 ，VMware 实现 vmxnet [VMW 05] 设备 驱动 ， 它 是 底 
层 物理 设备 的 一 个 抽象 。 当 一 个 应 用 希望 通过 网 络 发 送 数据 时 ， 寄 居 0S 处 理 请 
求 ， 并 调用 vmxnet 设备 驱动 。LO 请 求 被 VMM 截获 ， 且 控制 被 传递 给 VMkernel。 
VMkernel 独立 于 物理 设备 。 它 处 理 请 求 ， 管 理 各 种 VM 请 求 ， 并 调用 硬件 接口 层 ， 
它 实现 特定 的 设备 驱动 。 当 数据 到 达 物 理 接口 时 ， 将 之 发 送 到 特定 VM 的 机 制 是 相 
同 的 ， 但 顺序 相反 。 由 这 种 机 制 引 入 的 主要 额外 负担 是 VM 和 VMkernel 之 间 的 语 
境 切换 。 为 减少 由 语 境 切 换 导致 的 额外 负担 ， 在 进行 一 次 语 境 迁移 之 前 ，VMware 
ESX Server 收集 发 送 或 接收 网 络 报 文 的 分 簇 ( clusters)。 仅 当 报 文 速率 高 到 足够 可 
避免 增加 的 报 文 时 延 时 ， 才 使 用 这 种 机 制 。 

可 做 个 结论 ， 即 VMware ESX Server 是 一 个 全 虚拟 化 工具 ， 它 提供 许多 个 管理 
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和 后 勤 操作 工具 。VMware ESX Server 将 焦点 放 在 数据 中 心虚 拟 化 上 。 它 提供 一 个 
灵活 的 、 高 性 能 的 CPU 和 内 存 虚 拟 化 。 但 是 ，LO 虚拟 化 仍然 是 一 个 问题 ， 因 为 
它 是 通过 模拟 物理 设备 完成 的 ， 且 涉及 语 境 改变 。 


1.2.3 OpenVZ 


OpenVZ 是 一 个 开源 的 OS 级 虚拟 化 工具 。OpenVZ 支持 在 单个 OS 内 核 之 上 的 
多 个 隔离 的 执行 环境 。 每 个 被 隔离 的 执行 环境 被 称 作 一 个 虚拟 专用 服务 器 (VPS) 。 
一 个 VPS 看 起 来 就 像 一 台 物 理 服务 器 ， 拥 有 其 自己 的 进程 、 用 户 、 文 件 、 互 联网 
协议 (IP) 地 址 、 系 统 配置 ， 并 提供 全 部 的 root shell 访问 权限 。OpenVZ 宣称 为 引 
入 较 少 额外 负担 的 虚拟 化 工具 ， 因 为 每 个 VPS 共享 相同 的 OS 内 核 ， 提 供 一 个 高 级 
的 虚拟 化 抽象 。 这 个 虚拟 化 技术 的 主要 用 途 是 web 托管 (为 每 名 顾客 提供 一 个 完 
备 的 Linux 环境 ) 和 信息 技术 OT) 教育 机 构 (为 每 名 学 生 提供 一 台 Linux 服务 
器 ， 该 机 器 可 被 远程 地 监测 和 管理 [SWS 05 ] )。 除 了 OpenVZ 引入 的 较 小 额外 负 
担 外 ， 相 比 其 他 虚拟 化 工具 (All VMware 或 Xen) ， 它 是 不 太 灵 活 的 ， 因 为 OpenVZ 
执行 环境 必须 是 基于 物理 服务 器 的 相同 OS 内 核 上 的 一 个 Linux 发 行 版 。 

如 图 1. 6 所 示 的 OpenVZ 架构 由 运行 在 硬件 之 上 的 一 个 修改 过 的 Linux 内 核 组 
Wo OpenVZ 修改 过 的 内 核实 现 几 个 子 系统 的 虚拟 化 和 隔离 、 资 源 管 理 和 检查 点 
[KOL 06]。 另 外 ，LO 虚拟 化 机 制 是 由 OpenVZ 修改 过 的 内 核 提供 的 ， 它 拥有 每 个 
LO 设备 的 设备 驱动 。 这 个 修改 过 的 内 核 也 实现 一 个 两 层 进程 调度 ， 在 第 一 层 进程 
调度 ， 负 责 定义 哪个 VPS 将 运行 ; 在 第 二 层 进程 调度 ， 负 责 决 定 哪个 VPS 进程 将 
运行 。 两 层 调度 器 和 在 各 VPS 之 间 提 供 隔离 的 一 些 特征 ， 形 成 OpenVz 虚拟 化 层 。 
各 VPS 运行 在 OpenVZ 虚拟 化 层 以 上 。 每 个 VPS 有 其 自己 的 应 用 和 软件 包 集合 ， 
这 些 是 包含 应 用 或 服务 的 某 些 Linux 发 布 版 的 分 裂 形式 (segmentation) 。 因 此 ， 一 
个 VPS 有 其 自己 的 服务 和 应 用 ， 它 们 是 相互 独立 的 。 

通过 允许 或 禁止 一 个 VPS 访问 物理 服务 器 上 的 一 个 资源 ， 就 可 在 OpenVZ 中 完 
成 资源 虚拟 化 。 一 般 而 言 ， 在 OpenVZ 中 的 资源 不 是 模拟 的 ， 它 们 是 在 VPS 间 共 享 
的 。 为 定义 每 项 资源 的 量 (针对 每 个 VPS 要 加 以 保障 ) dE VPS 配置 文件 中 定义 了 
许多 计数 器 (大约 20 个 ) 。 接 下 来 进一步 详细 描述 OpenVZ 如 何 虚 拟 化 处 理 器 、 内 
存 、 磁 盘 和 网 络 设备 。 

对 于 处 理 器 虚拟 化 ，OpenVZ 实现 一 个 两 级 CPU 调度 器 [KOL 06 ] 。 在 第 一 
级 ， 虚 拟 化 层 确 定 在 每 个 时 间 片 将 执行 哪个 VPS， 这 考虑 到 VPS CPU 优先 级 ， 是 
以 cpuunits (cpu 单元 数 ) 度量 的 。 在 第 二 级 ， 是 运行 在 VPS 内 部 的 ， 标 准 Linux 
调度 器 在 每 个 时 间 片 将 执行 哪个 进程 ， 这 考虑 到 标准 进程 优先 级 参数 。 

OpenVZ 允许 各 VPS 直接 访问 内 存 。 此 外 ， 它 比 其 他 虚拟 化 技术 (A Xen) 要 
灵活 。 在 VPS 执行 过 程 中 ， 专 用 于 一 个 VPS 的 内 存量 可 由 主机 管理 员 进 行动 态 改 
4E, OpenVZ 内 核 管 理 VPS 内 存 空间 ， 使 之 保持 在 物理 内 存 中 ， 这 是 对 应 于 运行 
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图 1.6 OpenVZ 架构 


VPS 的 一 块 虚拟 内 存 。 

OpenVZ 虚拟 磁盘 是 主机 文件 系统 的 一 个 分 区 。 类 似 于 CPU WE, OpenVZ 磁 
盘 使 用 是 由 一 个 两 级 磁盘 配额 确定 的 。 在 第 一 级 ，OpenVZ 为 每 个 VPS 定义 一 个 磁 
盘 配 额 。 例 如 ， 通 过 在 主机 文件 系统 中 限制 文件 夹 的 最 大 尺寸 。 在 第 二 级 ， 为 一 个 
VPS 中 的 用 户 和 组 定义 磁盘 配额 是 可 能 的 ， 其 中 使 用 了 标准 的 Linux 配额 机 制 。 

网 络 虚拟 化 层 将 各 VPS 相互 隔离 ， 同 时 与 物理 网 络 隔离 [SWS 05]. OpenVZ 
的 默认 网 络 虚 拟 化 机 制 为 一 个 VPS 创建 一 个 虚拟 网 络 接口 ， 并 在 主机 系统 中 将 一 
A IP 地 址 指派 给 它 。 当 一 条 报 文 (AN IP 地 址 为 一 个 VPS) 到 达 主 机 系统 时 ， 主 
机 系统 将 该 报 文 路 由 到 相应 的 VPS。 网 络 虚拟 化 的 这 种 方法 支持 使 用 主机 系统 路 由 
模块 接收 和 发 送 VPS 报 文 。 这 简化 了 网 络 虚 拟 化 ， 但 在 接 下 来 的 路 由 报 文中 引信 
了 一 个 多 余 的 跳 。 

可 做 出 结论 ， 即 OpenVZ 提供 一 种 高 级 虚拟 抽象 ， 并 相 比 其 他 虚拟 化 工具 引入 较 少 
的 额外 负担 。 另 外 ， 就 必须 要 共享 物理 主机 系统 内 核 的 虚拟 环境 而 言 ， 它 的 约束 更 大 。 


1.3 场景 和 方法 论 


本 贡 给 出 为 测试 所 选用 的 方法 论 ， 并 比较 虚拟 化 工具 ， 描 述 实施 过 的 试验 。 为 
提供 一 个 公平 的 比较 ， 决 定 运行 不 同 的 测试 ,来 评估 被 虚拟 化 环境 的 CPU, RAM, 
存储 和 联网 性 能 。 为 测量 性 能 ， 选 择 实施 一 项 特定 任务 时 每 个 工具 所 用 的 时 间 。 

当 实 现 虚拟 化 时 ， 从 如 下 事实 中 出 现 了 几 个 问题 ， 即 硬件 是 在 各 VM 之 间 分 割 
的 ， 见 1.1 节 的 讨论 。 特 别 与 性 能 测量 有 关 的 问题 之 一 是 ，hypervisor 如 何 向 VM 
提供 时 间 记 录 (timekeeping) 机 制 [VMW 08] 。 在 一 台 个 人 计算 机 中 跟踪 时 间 有 
几 种 方式 ， 如 读 取 基本 输入 /输出 系统 (BIOS) 时 钟 、 使 用 CPU 寄存 器 [如 时 间 
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戳 计 数 器 (TSC) ] JA OS 请 求 系统 时 间 。 对 于 系统 时 间 记 录 机 制 ，Xen 不 断 地 将 
VM 时 钟 与 dom0 时 钟 同 步 ， 方 法 是 通过 在 domU 和 hypervisor 之 间 的 共享 内 存 发 送 
正确 的 时 间 信 息 。 对 多 数 应 用 而 言 ， 那 种 解决 方案 是 可 行 的 。 不 过 ， 如 果 应 用 具有 
比 VM 时 钟 要 高 的 时 钟 频率 ， 则 将 存在 时 间 测 量 误差 。 出 于 这 个 原因 ， 在 测试 中 不 
考虑 来 自 VM 的 时 间 记 录 方 法 。 实 施 测试 的 主要 思路 是 ， 使 一 台 外 部 计算 机 负责 测 
量 在 测试 计算 机 中 各 VM 实施 一 项 特定 任务 所 花费 的 时 间 。 在 单 VM 测试 中 ， 外 部 
计算 机 运行 一 个 控制 脚本 ， 通 过 一 个 安全 外 壳 (SSH) 连接 向 VM 发 出 指令 ， 使 之 
启动 试验 ， 并 数 次 完成 一 项 特定 任务 。 在 发 起 和 完成 任务 的 每 个 轮 次 时 ，VM 使 用 
一 条 探测 报 文通 知 外 部 计算 机 。 在 完成 所 有 轮 次 之 后 ， 外 部 计算 机 计算 完成 特定 任 
务 的 一 个 轮 次 花费 时 间 的 均值 和 方差 ， 这 里 考虑 到 9596 的 置信 区 间 。 为 得 到 较 小 
方差 而 选择 轮 次 数 ， 轮 次 数 是 任务 相关 的 。 在 多 个 VM 测试 中 ， 规 程 是 类 似 的 ， 区 
别 在 于 外 部 计算 机 同时 跟踪 多 个 任务 执行 的 情况 。 为 做 到 通知 外 部 机 器 所 花费 时 间 
量 是 可 忽略 的 ， 配 置 所 有 测试 的 任务 ， 使 测试 的 各 轮 次 持续 一 个 大 得 多 的 时 间 量 。 
典型 的 通知 时 延 在 毫秒 量 级 ， 而 轮 次 执行 则 在 分 钟 量 级 。 图 1.7 给 出 单 VM 测试 的 
基本 场景 ， 这 里 考虑 仅 有 一 个 轮 次 的 一 个 测试 。 开 动 测试 (1) 指令 是 从 外 部 计算 
机 发 送 到 测试 计算 机 的 。 在 执行 任务 之 前 (3) ， 测 试 计 算 机 将 初始 通知 (2) 发 送 
到 外 部 计算 机 ， 并 在 任务 执行 完成 时 ， 发 送 一 个 完成 通知 (4) 。 最 后 ， 外 部 计算 
机 处 理 结果 (5), 
(5) 处 理 结果 ， PRETA (3) 执 行 任务 
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外 部 计算 机 交换 机 实施 测试 的 计算 机 
图 1.7 8 VM 测试 默认 配置 


对 于 网 络 测试 ， 采 用 一 种 不 同方 法 。 关 注 的 度量 元 是 当 接收 和 发 送 时 各 VM 取得 
E E 台 计算 机 ， 一 台 用 于 产生 /接收 网 络 流量 ， 

台 实 施 互补 动作 (complementary action) 。 一 台 额 外 的 计算 机 被 用 来 实施 虚拟 化 
系统 的 互补 动作 。 这 台 计 算 机 被 称 作 网 络 测试 计算 机 。 对 于 这 些 测 试 ， 由 网 络 基 准 测 
试 工具 本 身 进行 测量 ， 所 用 方案 如 图 1.8 所 示 。 外 部 计算 机 最 初 触发 测试 (1) 。 在 
接收 到 指令 之 后 ， 执 行 网 络 基准 测试 ， 测 试 报 文 要 通过 网 络 (2) 。 在 测试 完成 之 后 ， 
测试 的 计算 机 和 网 络 测试 计算 机 将 结果 发 送 到 外 部 计算 机 (3) 处 理 结果 (4) 。 

下 面 介绍 硬件 /软件 描述 。 

对 于 所 实施 的 测试 ， 见 上 面 的 描述 ， 使 用 三 台 计 算 机 。 这 里 将 描述 这 些 计算 机 
的 硬件 和 软件 配置 。 

测试 是 在 第 一 台 计 算 机 中 执行 的 ， 该 计算 机 被 称 作 测试 的 计算 机 ， 如 图 1.7 和 
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(4) 处 理 结果 

dec x 实施 测试 
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Vay 65 






图 1.8 单 VM 网 络 测试 配置 


图 1. 8 所 示 。 对 于 那个 角色 ， 使 用 一 台 HP Proliant DL380 第 5 代 服 务 器 ， 装 备 有 2 
个 Intel Xeon 5440 CPU, 10GB DDR2 RAM @ 667MHz 、 一 个 集成 的 2 端口 Broadcom 
Nextreme II 千 兆 网 络 接口 和 4 个 10000r/min 的 146GB SAS 硬盘 。 针 对 测试 ， 每 块 
硬盘 安装 有 一 个 不 同 的 软件 配置 。 在 第 一 块 硬盘 中 ， 为 原生 性 能 测试 的 用 途 ， 安 装 
一 个 标准 的 Debian Linux AMD 64。 在 第 二 块 硬盘 中 ， 针 对 dom0 和 domU ， 使 用 一 
个 半 虚 拟 化 的 Debian Linux AMD 64， 安 装 一 个 标准 的 Xen 3.2-1, domU 的 各 VM 
配置 有 一 个 vCPU, 4GB RAM 和 10GB 存储 。 在 第 三 块 硬盘 中 ， 安 装 一 个 标准 的 
VMware ESX 3.5, H VM 配置 有 一 个 vCPU, 4GB RAM, 10GB 存储 和 Debian Linux 
AMD 64, 在 第 四 块 硬盘 中 ， 在 Debian AMD 64 之 上 安装 一 个 标准 的 OpenVZ, HEJ 
建 一 个 OpenVZ 容器 ， 其 配额 类 似 于 Xen 和 VMware VM。 第 二 台 机 器 是 外 部 计算 
机 ， 用 于 控制 试验 和 处 理 结 果 。 在 图 中 它 被 称 作 外 部 计算 机 。 对 于 那个 角色 ， 使 用 
一 台 台 式 机 ， 装 备 有 一 个 Intel Q6600 CPU, 4GB DDR2 RAM@ 667MHz、 一 个 集成 
的 Intel e1000e 千 兆 网 络 接口 和 7200rxmin 的 一 块 500GB SATA2 硬盘 。 该 计算 机 配 
置 有 一 个 默认 的 Debian Linux AMD 64， 并 有 控制 任务 和 处 理 结果 的 所 有 脚本 。 最 
后 一 台 计 算 机 是 网 络 测试 中 使 用 的 计算 机 ， 用 于 建立 到 测试 计算 机 的 一 条 连接 ,或 
接收 来 自 测试 计算 机 的 一 条 连接 。 在 图 中 被 称 作 网 络 测试 计算 机 。 这 台 计 算 机 是 一 
台 台 式 机 ， 装 备 有 一 个 Intel E6750 CPU、2GB DDR2 RAM@ 667 MHz、 一 个 集成 的 
Intel e1000 千 兆 网 络 接口 和 运行 在 7200r/min 的 一 块 320GB SATA2 硬盘 。 该 计算 机 
配置 有 一 个 默认 的 Debian Linux AMD 64 和 网 络 基准 测试 工具 。 所 有 的 Linux 安装 
使 用 2.6.26 内 核 版 本 。 


1.4 ”性 能 评估 


首先 给 出 采用 一 个 VM 的 试验 结果 ， 将 采用 Xen, VMware 和 OpenVZ 得 到 的 性 
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能 与 原生 Linux 的 性 能 进行 比较 。 针 对 CPU 、RAM、 磁 盘 和 网 络 资源 ， 使 用 特定 的 
基准 测试 。 针 对 一 个 Linux 内 核 编译 基准 测试 ， 这 里 也 给 出 结果 ， 这 是 要 求 CPU、 
RAM 和 硬盘 等 混合 资源 的 一 项 应 用 。 


1.4.1 CPU 性 能 


Super- Pi 测试 是 基于 Gauss- Legendre 算法 计算 Pi 值 的 一 项 CPU 密集 的 任务 。 
Gauss- Legendre 算法 是 迭代 的 ， 且 基于 多 次 算术 运算 。 最 常用 的 算术 运算 是 求 和 、 
Wk. WAR, SERE (potentiation) 、 减 和 乘 。 对 于 这 次 测试 ， 一 个 外 壳 脚本 计算 具有 
2 个 数字 (4 194 304 个 数字 ) Pi 值 ， 运 行 10 个 轮 次 。 性 能 度量 元 是 计算 Pi 所 用 
时 间 ， 单 位 是 s。 


1.4.2 内 存 性 能 


内 存 分 配 、 设 置 和 读 取 (MASR) 是 由 Rio de Janeiro 联邦 大 学 电信 和 自动 化 组 
(GTA) 开发 的 一 个 内 存 基准 测试 工具 。MASR 基准 测试 内 存 的 方法 是 ， 分 配 2GB 
内 存 ， 顺 序 地 将 所 有 内 存 位 置 设置 为 一 个 固定 值 ， 并 顺序 地 读 取 所 有 内 存 位 置 。 
MASR 为 基准 测试 内 存 开 发 了 确定 数量 的 操作 ， 这 独立 于 计算 机 的 性 能 。 因 为 对 于 
这 个 显 性 特点 没有 找到 Linux 内 存 基准 测试 ， 所 以 开发 了 MASR。 对 于 这 项 测试 ， 
开发 了 一 个 外 过 脚本， 其 中 MASR 被 执行 10 个 轮 次 。 被 评估 的 参数 是 在 每 个 轮 次 
中 执行 MASR 基准 测试 所 花费 的 时 间 。 


1.4.3 硬盘 和 文件 系统 性 能 


1. Bonnie ++ 

Bonnie ++ 是 一 个 开源 磁盘 基准 测试 程序 ， 设 计 用 来 评估 硬盘 和 文件 系统 性 能 。 
Bonnie ++ 的 主 程序 测试 1GB 大 小 的 单个 临时 文件 ， 或 对 于 较 大 量 的 数据 测试 多 个 
1GB 大 小 的 临时 文件 ， 带 有 数据 库 类 型 的 访问 ， 在 所 用 临时 文件 中 模拟 诸如 创建 、 
读 取 和 删除 大 量 小 文件 等 操作 。 第 二 个 程序 测试 硬盘 不 同 区 域 的 性 能 ， 从 位 于 硬盘 
开始 、 中 间 和 末尾 扁 区 的 块 中 读 取 数据 。 对 于 这 项 测试 ， 一 个 外 壳 脚 本 执行 10 次 
Bonnie ++ ， 带 有 使 用 2GB 磁盘 空间 的 一 个 参数 。 性 能 度量 元 是 每 次 执行 Bonnie ++ 
基准 测试 所 花费 的 时 间 。 

2. ZFG 

零 文 件 生成 器 (ZFG) 是 由 GTAZUFRJ 开发 的 一 个 磁盘 基准 测试 工具 。 通 过 在 
每 个 轮 次 中 10 次 以 零 填充 写 人 一 个 2GB 二 进 制 文件 ，ZFG 基准 测试 磁盘 连续 写 入 
速度 。ZFG 是 为 以 确定 数量 (独立 于 计算 机 的 性 能 ) 的 操作 基准 测试 磁盘 而 开发 
的 。 因 为 没有 找到 带 有 这 个 显 性 特点 的 Linux 磁盘 基准 测试 工具 ， 所 以 开发 了 
ZFC。 针 对 这 项 测试 ， 开 发 了 一 个 外 壳 脚 本 ， 其 中 以 10 个 轮 次 执行 ZFG。 被 评估 
参数 是 每 个 轮 次 执行 ZFG 基准 测试 所 花费 的 时 间 。 
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1.4.4 网 络 性 能 


Iperf 是 一 个 开源 的 网 络 基 准 测试 程序 ， 支 持 在 传输 控制 协议 (TCP) 或 用 户 
数据 报 协议 (UDP) 之 上 使 用 单 向 和 双向 数据 流 来 基准 测试 网 络 性 能 。Iperf 有 可 
被 配置 的 几 个 参数 ， 如 报 文 尺寸 、 带 宽 pef 应 该 尝试 取得 的 ) 和 测试 时 长 。 在 
测试 中 使 用 fperf， 配 置 有 单 向 UDP 数据 流 ， 使 用 1472 个 字 节 的 净 荷 来 避免 IP 分 
片 。 对 于 这 项 测试 ， 开 发 了 一 个 外 壳 脚 本 ， 其 中 一 条 单 向 UDP 数据 流 从 测试 计算 
机 传 到 网 络 测试 计算 机 或 以 相反 方向 传递 。 


1.4.5 整体 性 能 Linux 内 核 编译 


Linux 内 核 编译 [WRI 02] 是 被 频繁 地 用 来 评估 整体 性 能 的 一 个 基准 测试 工 
具 ， 因 为 它 密集 地 使 用 计算 机 系统 的 不 同 部 分 。Linux 内 核 由 数 千 个 小 型 源 代码 文 
件 组 成 。 其 编译 要 求 密集 的 CPU fF]. RAM 读 / 写 访问 和 短 时 长 非 顺 序 的 磁盘 访 
问 ， 原 因 是 要 被 编译 的 文件 取决 于 目标 内 核 配置 。 对 于 这 项 测试 ， 开 发 了 一 个 外 壳 
脚本 ， 其 中 10 次 编译 内 核 。 被 评估 的 参数 是 产生 一 个 默认 配置 文件 和 编译 内 核 所 
花费 的 时 间 。 


1.4.6 单个 虚拟 机 测试 


首先 给 出 所 实施 的 单 VM 的 执行 基准 测试 的 结果 。 有 关 单 VM 测试 的 所 有 下 面 
的 图 形 ， 都 将 给 出 原生 Linux, VMware VM, Xen VM 和 OpenVZ 容器 的 性 能 。 

1. Super- Pi 

10 次 执行 Super- Pi 基准 程序 的 结果 如 图 1.9 所 示 。 一 个 轮 次 测试 的 均值 执行 
时 间 显 示 在 纵 轴 上 ， 值 越 小 越 好 。 虚 拟 化 工 
具 和 原生 Linux 沿 横 轴 展开 。 100 

和 预料 的 一 样 ， 非 虚拟 化 系统 的 性 能 胜 80 
过 虚拟 化 系统 。Xen 接近 原生 性 能 。 那 是 预 
料 到 的 情况 ， 原 因 是 在 hypervisor 赋予 使 用 一 
个 内 存 区 的 许可 之 后 ，Xen 半 虚 拟 化 VM 可 直 20 
接 访 问 内 存 ， 且 将 大 部 分 给 出 的 额外 负担 都 0 Cr 
与 VM CPU 调度 器 关联 起 来 。VMware 具有 最 Baremetal 软 件 
差 的 性 能 ， 这 是 提供 给 VM 的 虚拟 RAM 和 物 图 1.9 Super- Pi 测试 
理 RAM 之 间 额 外 地 址 翻译 的 后 果 ，VM CPU 
调度 器 的 情况 也 是 这 样 的。 由 于 在 容器 之 间 共 享 CPU 的 调度 机 制 ，OpenVZ Æ tt 
Xen 稍 高 一 点 的 额外 负担 。 

2. MASR 

MASR 基准 测试 执行 10 个 轮 次 的 结果 如 图 1. 10 所 示 。 一 个 轮 次 的 均值 执行 时 
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间 显 示 在 纵 轴 上 ， 值 越 小 越 好 。 虚 拟 化 工具 和 原生 Linux 沿 横 轴 展开 。 

结果 表明 ， 和 预料 的 一 样 JRE Linux 具有 最 佳 性 能 。 和 预料 的 一 样 ，OpenVZ 
取得 类 似 于 原生 Linux 的 性 能 ， 原 因 是 OpenVZ 动态 地 与 具有 低 隔 离 度 的 所 有 容器 
共享 内 存 ， 低 隔离 度 仅 为 每 个 容器 保障 最 小 的 私有 内 存量 。Xen 给 出 与 VM 调度 机 
制 相 关联 的 某 种 额外 负担 。 由 于 额外 内 存 地 址 翻译 和 VM 调度 器 ，VMware 具有 最 
差 的 性 能 。 所 有 虚拟 化 工具 给 出 可 接受 的 额外 负担 ， 这 是 一 个 非常 重要 的 结果 ， 原 
因 是 在 转发 表 查 找 和 其 他 路 由 任务 中 ， 内 存 访问 操作 是 非常 常见 的 。 

3. Bonnie ++ 

执行 10 次 Bonnie ++ 磁盘 基准 测试 的 结果 如 图 1.11 所 示 。 一 个 轮 次 测试 的 均 
值 执 行 时 间 显 示 在 纵 轴 上 ， 值 越 小 越 好 。 虚 拟 化 工具 和 原生 Linux 沿 横 轴 展开 。 
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图 1.10 MASR 测试 图 1.11 Bonnie ++ 测 试 


原生 Linux RA REVERE, OpenVZ 取得 类 似 结果 ， 原 因 是 OpenVZ 中 的 磁盘 访 
问 是 非常 类 似 于 原生 Linux 中 的 磁盘 访问 的 。Xen 给 出 一 些 额 外 负担 ， 原 因 是 它 使 
用 dom0 和 VM 之 间 的 一 个 额外 缓冲 ， 即 L/O 环 ， 当 从 磁盘 读 取 时 这 增加 了 延迟 。 
VMware 给 出 最 差 的 结果 ， 这 也 许 是 hypervisor 中 额外 缓冲 的 后 果 ， 该 缓冲 被 用 来 在 
物理 磁盘 和 虚拟 磁盘 之 间 传 递 数 据 。 不 过 ， 磁 盘 性 能 是 不 太 重 要 的 ， 原 因 在 于 它 多 
少 不 会 影响 正常 的 路 由 器 转发 操作 。 

4. ZFG 

ZFG 测试 的 结果 如 图 1.12 所 示 。VMware Linux 和 OpenVZ 的 结果 是 从 10 个 
轮 次 中 得 到 的 。 为 得 到 一 个 可 接受 的 误差 条 ， 从 100 个 轮 次 中 得 到 Xen 结果 。 一 个 
轮 次 的 测试 的 均值 执行 时 间 显示 在 纵 轴 上 ， 值 越 小 越 好 。 虚 拟 化 工具 和 原生 Linux 
沿 横 轴 展开 。 

如 在 图 1. 12 中 所 观察 到 的 ，VMware VM 的 性 能 稍 高 于 原生 Linux， 将 这 一 点 
归于 在 虚拟 磁盘 和 真实 磁盘 之 间 传 递 数 据 的 缓冲 ， 原 因 是 它 赋 予 VM 这 样 的 印象 ， 
即 当 实际 上 将 数据 从 缓冲 传递 到 物理 磁盘 时 ， 数 据 已 经 写 人 磁盘 。 令 人 意外 的 是 ， 
OpenVZ 的 性 能 超过 原生 Linux ， 必 须 进 行 更 多 的 深入 研究 来 发 现 原因 。Xen VM 的 
性 能 要 慢 于 原生 Linux， 但 观察 到 一 个 不 正常 的 执行 时 间 。 在 图 1. 13 中 ， 注 意 到 几 
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个 轮 次 执行 花费 的 时 间 小 于 10s, 一 些 轮 次 的 执行 花费 的 时 间 大 于 60s。 在 原生 
Linux 中 ， 当 有 数据 要 被 写 人 到 一 个 WO 设备 时 ， 它 被 发 送 到 一 个 内 存 缓冲 ， 之 后 
使 用 直接 内 存 访问 (DMA) 被 传递 到 该 设备 。 在 Xen 和 VMware 中 ， 当 数据 实际 上 
处 在 从 VM 到 真实 L/O 设备 驱动 的 缓冲 时 ， 用 来 与 真实 VO 设备 驱动 的 额外 步 又 
(其 中 虚拟 L/0 设备 驱动 将 数据 写 到 一 个 内 存 缓冲 ) 给 出 数据 被 写 人 到 硬盘 的 印 
象 。 对 于 Xen 实现 有 关 这 个 缓冲 的 进一步 细节 可 在 文献 [CHI 08] 中 找到 。 由 Xen 
结果 给 出 的 巨大 轮 次 执行 时 间 差 异 验证 了 假设 ， 因 为 依据 在 每 个 轮 次 开始 中 缓存 的 
状态 ， 每 个 轮 次 需要 的 时 间 将 是 变化 的 。 为 验证 怀疑 ， 进 行 了 两 种 进一步 的 测试 。 
第 一 种 测试 为 VM 缓冲 设置 不 利 条 件 。 在 这 些 类 型 的 测试 中 ， 修 改 测 试 脚本 ， 在 每 
个 测试 轮 次 之 前 ， 写 人 大 量 数据 ， 目 的 是 将 从 VM 到 真实 VO 设备 驱动 的 缓冲 处 于 
污染 状态 (dirty)。 在 这 些 类 型 的 测试 中 ， 在 每 个 轮 次 的 开始 处 ， 预 期 从 VM 到 真 
实 IO 驱动 的 缓冲 被 填充 以 发 出 的 (pending， 悬 而 未 决 的 ) 请 求 。 第 二 种 测试 有 利 
于 VM 缓冲 。 修 改 脚本 在 每 个 轮 次 之 前 等 待 一 个 长 的 时 段 ， 赋 予 dom0 足够 的 时 间 
清除 缓冲 。 在 这 些 类 型 的 测试 中 ， 预 期 从 VM 到 真实 1/0 驱动 的 缓冲 是 空 的 ， 即 在 
每 个 轮 次 开始 处 没有 发 出 的 请 求 。 














70 DRE Linux ca ZFG-Xen VM 
60 Xen Ea T 一 
VMware ca 
50 OpenVZ ga 
£ 40 r1 
= — 
E 30 z 
将 20 = - 
10 
0 - 人 
ZFG 0 10 20 30 40 50 60 70 80 90 100 
Baremetal 软 件 轮 次 数 
图 1.12 ZFG 测试 图 1.13 ZFC 测试 Xen VM 各 轮 次 


5. 缓冲 污染 的 ZFG 

在 修改 过 的 ZFG 测试 中 ， 在 每 个 轮 次 之 前 ， 以 大 量 数据 污染 缓冲 ， 其 结果 如 
1. 14 所 示 。 一 个 轮 次 测试 的 均值 执行 时 间 显 示 在 纵 轴 上 ， 值 越 小 越 好 。 虚 拟 化 
工具 和 原生 Linux 沿 横 轴 展开 。 

进行 了 100 个 轮 次 的 测试 ， 正 如 所 料 的 是 ， 当 污染 在 虚拟 设备 驱动 和 真实 设备 
驱动 之 间 传 递 数据 的 缓冲 时 ， 各 VM 的 性 能 急剧 下 降 ， 原 生 Linux 以 巨大 优势 在 性 
能 上 胜 过 Xen 和 VMware 虚拟 化 Linux 0S。 同 样 ，OpenVZ 的 性 能 胜 过 原生 Linux, 
表明 OpenVZ 所 采用 的 磁盘 机 制 并 不 类 似 于 Xen 和 VMware VM 所 采用 的 磁盘 机 制 。 

6. 带 有 休息 时 段 的 ZFG 

在 修改 过 的 ZFC 测试 中 ， 在 每 个 轮 次 之 前 都 等 待 dom0 清除 缓冲 ， 其 结果 如 
图 1. 15 所 示 。 一 个 轮 次 的 测试 的 均值 执行 时 间 显 示 在 纵 轴 上 ， 值 越 小 越 好 。 虚 拟 
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VMware ta 
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带 有 缓冲 污染 的 ZFG 、 
Baremetal 软 件 Baremetal 软件 


1.14 缓冲 污染 的 ZFC 测试 图 1.15 带 有 休息 时 段 的 ZFC 测试 


和 预料 的 一 样 ， 当 在 各 轮 次 之 间 存 在 一 个 长 的 时 段 时 ，Xen 具有 足够 的 时 间 将 
处 于 缓冲 中 的 所 有 待 写 出 数据 写 到 硬盘 ， 且 当 执 行 下 一 个 轮 次 的 测试 时 ， 缓 冲 被 清 
Z, AH Xen VM 将 数据 较 快速 地 写 到 磁盘 的 印象 。 因 此 ， 当 要 写 数据 的 量 不 大 于 
缓冲 时 ，Xen VM 具有 如 此 之 好 的 性 能 ， 原 因 是 它 写 到 连接 虚拟 磁盘 驱动 和 真实 磁 
盘 驱 动 的 RAM 内 存 缓冲 上 ， 所 以 在 性 能 上 就 胜 过 实际 上 将 数据 写 到 硬盘 的 原生 
Linux。 人 允许 在 每 个 轮 次 之 间 有 2min， 使 Xen 来 清除 缓冲 。 在 VMware 中 没有 这 样 
的 机 制 ， 所 以 其 性 能 也 不 好 。 和 在 前 面 ZFC 磁盘 写 和 人 测试 中 一 样 ，OpenVZ 再 次 胜 
过 Linux。 

7. Iperf: 从 VM 到 网 络 测试 计算 机 的 UDP 数据 流 

在 这 项 测试 中 ， 对 从 VM 产生 的 UDP 报 文 进行 基准 测试 。 在 下 一 节 给 出 报 文 
接收 的 结果 。 图 1. 16 给 出 Iperf 网 络 基准 测试 100 个 轮 次 产生 从 VM 到 网 络 测试 计 
算 机 的 流量 的 结果 。 在 纵 轴 上 显示 均值 吞吐 
量 ， 值 越 大 越 好 。 虚 拟 化 工具 和 原生 Linux 沿 1200 
横 轴 展开 。 1000} OpenVZ Em m 

和 预期 的 一 样 ， 原 生 Linux 取得 最 佳 结 me 
果 ， 接 近 千 兆 以 太 网 适配器 的 理论 极限 。Xen BO 
取得 接近 原生 的 性 能 ， 表 明 L/O 环 机 制 能 够 V ao 
足够 快 地 交付 数据 。VMware 呈现 极 大 的 性 能 0 NI 
降级 ， 表明 其 默认 联网 机 制 的 低 效 实现 。 基 Baremetal 软 件 
于 IP 层 虚拟 化 的 OpenVZ 默认 联网 机 制 ， 性 图 1.16 Iperf UDP 报 文 产生 测试 
能 较 差 ， 且 不 能 使 用 全 部 的 千 兆 接口 带宽 。 
这 是 一 个 非常 重要 的 结果 ， 原 因 是 一 台 路 由 器 的 转发 能 力 直接 取决 于 其 发 送 报 文 的 
能 力 ， 且 结果 表明 ， 一 个 虚拟 化 环境 以 接近 原生 速率 发 送 大 型 报 文 是 可 能 的 。 

8. Iperf: 从 网 络 测试 计算 机 到 VM 的 UDP 数据 流 

在 这 项 测试 中 ， 对 从 VM 接收 UDP 报 文 进行 基准 测试 。 图 1. 17 给 出 Iperf 网 络 
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基准 测试 100 个 轮 次 产生 从 网 络 测试 计算 机 到 VM 的 流量 的 结果 。 在 纵 轴 上 显示 均 
值 吞吐 量 ， 值 越 大 越 好 。 虚 拟 化 工具 和 原生 Linux 沿 横 轴 展开 。 

结果 再 次 表明 ， 原 生 Linux 接近 理论 最 大 吞吐 量 。Xen 再 次 取得 接近 原生 的 性 
能 。 在 传输 方面 ，VMware 的 性 能 表现 好 得 多 ， 但 仍然 要 比 原生 Linux 和 Xen BH. 
OpenVZ 默认 的 联网 虚拟 化 机 制 性 能 表现 较 差 。 这 也 是 一 个 重要 结果 ， 原 因 是 一 台 
路 由 器 的 转发 能 力 直接 与 其 接收 报 文 的 能 力 有 关 。 结 果 表 明 ，Xen 能 够 以 接近 原生 
的 速率 采用 单 VM 处 理 大 型 报 文 接收 ,在 1.4.7 节 给 出 多 个 VM 测试 。 

9. Linux 内 核 编译 

图 1. 18 给 出 了 10 次 执行 Linux 内 核 编译 测试 的 结果 。 一 个 轮 次 测试 的 均值 执 
行 时 间 显 示 在 纵 轴 上 ， 值 越 小 越 好 。 虚 拟 化 工具 和 原生 Linux 沿 横 轴 展开 。 
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Iperf UDP 接收 内 核 编译 


Baremetal 软件 Baremetal 软件 
图 1.17 Iperf UDP 测试 图 1.18 内 核 编译 测试 


同样 Xen 取得 的 性 能 稍 好 于 原生 Linux 的 ， 这 源 于 在 前 面 磁盘 写 和 测试 中 所 
解释 的 磁盘 写 人 效应 。 对 于 这 项 任务 ，VMware 取得 最 差 结 果 ， 这 重复 了 在 前 面 测 
试 中 差 的 CPU 和 内 存 性 能 结果 。OpenVZ 性 能 类 似 于 原生 Linux， 这 与 在 前 面 CPU, 
内 存 和 Bonnie ++ 磁盘 测试 中 所 给 出 性 能 预期 的 一 样 。 

10. 有 关 单 VM 结果 的 评述 

要 评述 的 一 个 重要 点 是 VM 的 磁盘 性 能 。 取 决 于 应 用 ， 在 真实 磁盘 驱动 和 虚拟 
磁盘 驱动 间 通信 的 缓冲 可 以 有 正面 影响 或 负面 影响 。 对 于 执行 多 次 磁盘 读 取 操作 的 
应 用 而 言 ， 硬 盘 和 VM 磁盘 驱动 之 间 的 额外 阶段 ， 为 恢复 信息 引入 较 长 的 时 延 ， 因 
此 就 降低 了 性 能 。 如 果 磁 盘 写 人 操作 比 读 取 频 繁 ， 且 应 用 不 写 人 大 量 数据 以 填充 组 
冲 ， 那 么 应 用 应 该 可 从 缓冲 受益 ， 这 正 像 在 各 轮 次 之 间 有 一 个 时 间 间 隔 时 所 执行 的 
ZFG 基准 测试 的 情形 。 会 损失 性 能 的 应 用 包括 站 点 的 网 站 主机 (必须 频繁 地 从 磁 
盘 恢 复 信息 ) 或 数据 挖掘 应 用 (密集 地 从 磁盘 读 取 信息 )。 会 从 缓冲 受益 的 应 用 包 
括 日 志 应 用 和 主要 为 写 人 数据 而 访问 磁盘 的 其 他 应 用 。 考 虑 所 给 出 的 结果 ， 特 别 是 
CPU 、 内 存 访问 和 网 络 有 关 的 结果 ， 得 出 结论 ， 首 先 ， 虚 拟 化 工具 引入 可 接受 的 额 
外 负担 ， 且 在 被 测 工 具 之 上 构造 虚拟 路 由 器 是 可 行 的 。 基 于 CPU、 内 存 和 网 络 
(它们 是 路 由 器 正常 操作 所 使 用 的 主要 资源 ) 结果 ， 得 到 结论 ， 即 VMware 不 是 构 
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造 虚拟 路 由 器 的 最 佳 方案 ， 原 因 是 它 有 最 差 的 性 能 结果 。 同 样 ，VMware 几乎 不 提 
供 灵活 性 ， 原 因 是 其 源 代码 是 私有 的 。 在 多 数 情形 中 ，OpenVzZ 的 性 能 非常 好 ,但 
呈现 出 差 的 网 络 性 能 ， 这 是 网 络 虚拟 化 的 一 个 主要 问题 。 此 外 ，OpenVZ 也 约束 虚 
拟 环境 ， 限 制 它 不 仅 使 用 相同 的 OS 而 且 为 所 有 VM 都 使 用 相同 内 核 版 本 ， 这 是 以 
不 同 路 由 器 复杂 度 构 造 虚拟 网 络 的 一 个 主要 问题 。 由 于 给 出 良好 的 CPU 和 内 存 性 
能 ， 具 有 接近 原生 的 网 络 性 能 ， 开 源 ( 允许 无 限制 地 定制 ) 和 以 高 度 灵 活性 提供 
虚拟 环境 ， 所 以 Xen 也 许 是 构造 虚拟 路 由 器 的 最 佳 虚拟 化 工具 。1. 4. 7 节 给 出 采用 
多 个 VM 的 测试 集 。 多 VM 测试 评估 Xen 如 何 随 共享 相同 计算 机 资源 的 多 个 VM 扩 
展 ， 评 价 多 个 虚拟 网 络 在 一 台 计算 机 上 的 生存 能 力 。 


1.4.7 多 虚拟 机 测试 


多 VM 测试 的 目标 是 观察 Xen 如 何 随 多 个 VM 在 性 能 降级 、 公 平 资源 共享 等 方 
面 扩 展 的 ， 以 及 不 同 vCPU 到 CPU 分 配方 案 如 何 影 响 总 体 性 能 和 个 体 性 能 。 下 面 所 
有 各 图 给 出 Xen VM 的 性 能 ， 其 中 执行 不 同 任务 时 VM 数量 是 变化 的 ， 并 且 对 相同 
任务 ，CPU 分 配方 案 也 是 变化 的 。Xen 支持 对 各 VM 呈现 给 虚拟 OS 的 vCPU 如 何 
共享 物理 CPU 进行 配置 。 它 支持 动态 CPU 分 配方 案 和 静态 分 配方 案 。 为 研究 它们 
对 虚拟 化 环境 扩展 性 的 影响 ， 使 用 了 三 种 不 同 的 CPU 分 配 默认 。 如 前 所 述 ， 测 试 
计算 机 装备 两 个 Xeon E5400 四 核 CPU， 这 将 8 个 物理 核 分 配 在 hypervisor 和 VM 的 
需求 之 间 。 男 一 个 相关 点 是 ， 每 个 CPU 有 其 自己 的 正面 (front side) 总 线 ， 这 使 
每 个 CPU 能 够 独立 地 访问 内 存 。 在 每 个 CPU 内 部 ， 每 个 核 有 其 自己 的 Ll 和 1 了 2 组 
f£, 但 L3 缓存 是 为 每 对 核 所 共享 的 。 在 测试 中 使 用 的 第 一 个 核 分 配方 案 是 Xen 默 
认 方 案 ， 其 中 hypervisor 动态 地 将 CPU 物理 核 分 配 到 Xen vCPU。 在 Xen 默认 方案 
中 ， 可 能 存在 未 用 的 物理 核 、 可 能 被 分 配 到 一 个 以 上 vCPU 的 核 和 恰好 分 配给 一 个 
vCPU 的 核 。 在 表 1. 1 中 给 出 了 核 分 配 的 一 个 例子 。 在 某 个 时 刻 ， 可 能 存在 未 用 的 
物理 核 、 被 分 配 到 一 个 以 上 vCPU 的 核 和 分 配给 单个 vCPU 的 核 。 


表 1.1 使 用 Xen 默认 方案 的 物理 核 分 配 例子 


物 m g 虚拟 机 的 虚拟 CPU 
dom0 的 VCPUO 和 VCPU7 
dom0 的 VCPU4 


dom0 的 VCPUI 

VM2 的 VCPU0 

dom0 的 VCPUS 和 VCPU6; VM4 的 VCPUO 
dom0 的 VCPU2; VM3 的 VCPUO 

未 用 

dom0 的 VCPU3; VMI 的 VCPUO 
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使 用 的 第 二 种 方案 是 一 种 静态 物理 核 分 配方 案 。 将 一 个 固定 的 独占 核 设置 给 每 
个 VM vCPU， 将 一 个 固定 的 独占 核 设置 给 4 个 dom0 vCPU， 禁 止 dom0 的 4 个 
vCPU。 这 种 分 配 的 目标 是 考察 当 固定 物理 核 (将 处 理 一 条 vCPU 请 求 ) 时 ， 特 别 
当 导 致 降低 数量 的 CPU 缓存 错误 和 减少 RAM 内 存 访问 (具有 比 缓存 大 得 多 的 延 
JR) Bj, 是否 存在 一 个 相当 的 性 能 增益 。 在 表 1. 2 中 给 出 了 这 种 方案 。 


表 1.2 独占 核 静态 分 配方 案 


物 理 核 虚拟 机 的 虚拟 CPU 
dom0 的 VCPUO 














dom0 的 VCPUI 








dom0 的 VCPU2 


dom0 的 VCPU3 


VMI 的 VCPUO 


VM2 的 VCPUO 
VM3 的 VCPUO 
VM4 的 VCPUO 


使 用 的 第 三 种 方案 是 一 个 静态 物理 核 分 配 ， 其 中 将 所 有 vCPU 设置 为 共享 相同 
的 物理 核 。 这 种 方案 的 目标 是 过 载 物理 CPU ， 观 察 性 能 降低 以 及 各 VM 之 间 的 资源 
共享 是 否 为 公平 的 。 在 表 1.3 中 给 出 了 这 种 方案 。 每 个 VM 和 domo 使 用 相同 的 固 
定 物理 核 。dom0 仅 有 一 个 活跃 的 vCPU， 所 有 其 他 7 个 vCPU 都 被 禁止 。 


R13 共享 核 静态 分 配方 案 
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物理 核 虚拟 机 的 虚拟 CPU 
0 dom0 的 CPUO; VMI 的 VCPUO; VM2 的 VCPUO; VM3 的 VCPUO; VM4 的 VCPUO 
1 未 用 
2 未 用 
3 未 用 
4 未 用 
5 未 用 
6 未 用 
7 未 用 
1. Super- Pi 


图 1.19a~ 图 1.19c 给 出 了 扩展 性 测试 结果 。 其 中 使 用 采用 三 种 不 同 物理 核 分 
配方 案 的 Super- Pi 基准 测试 ， 每 种 方案 执行 10 个 轮 次 。 
结果 表明 ， 所 有 三 种 CPU 方案 给 出 大 得 多 的 变 差 ， 因 为 YM 数量 的 增加 ， 表 
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1. 19 Super- Pi 基准 测试 
a) 对 于 所 有 vCPU 使 用 一 个 物理 核 的 多 个 VM b) 为 每 个 vCPU 使 用 一 个 独占 物理 核 的 多 个 VM 
c) 使 用 Xen 默认 物理 核 分 配方 案 的 多 个 VM 


明 对 于 这 项 任务 ， 在 以 一 种 公平 方式 调度 各 VM 方面 Xen 存在 困难 。 对 于 采用 一 个 
物理 核 服务 所 有 vCPU 的 方案 ， 同 样 显著 的 是 ， 这 也 存在 最 大 可 观察 到 的 变 差 ， 原 
因 是 CPU 是 一 项 稀缺 资源 ， 执 行 的 VM 越 多 ， 则 一 个 Super- Pi 轮 次 将 花费 的 时 间 
就 越 长 。 

2. MASR 

图 1.20a ~ 图 1.20e 给 出 了 使 用 MASR 基准 测试 时 扩展 性 测试 的 结果 。 其 中 采 
用 三 种 不 同 物理 核 分 配方 案 ， 每 个 执行 10 个 轮 次 。 

结果 表明 Xen 方案 与 为 每 个 VM 和 每 个 dom0 vCPU 都 采用 一 个 独占 物理 核 的 
方案 ， 可 良好 地 从 一 个 VM 扩展 到 4 个 VM， 表 明 随 着 VM 数量 增加 ， 没 有 性 能 降 
级 。 当 从 一 个 VM 扩展 到 4 个 VM AY, Xen 默认 方案 没有 损失 多 少 性 能 ， 但 相 比 为 
每 个 VM 和 每 个 dom0 vCPU 都 采用 一 个 独占 物理 核 的 方案 ， 则 给 出 差 的 性 能 。 那 是 
如 下 事实 的 一 个 后 果 ， 即 Xen 默认 方案 动态 地 将 vCPU 重新 指派 到 物理 核 上 ， 当 一 
个 vCPU 重新 指派 到 一 个 不 同 的 核 时 ， 这 增加 了 缓存 不 命中 数 。 为 所 有 VM 和 domo 
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使 用 一 个 物理 核 的 方案 ， 表 明 对 于 这 项 测试 ，CPU 是 一 个 瓶颈 ， 且 就 各 VM 间 分 割 
CPU ffl, Xen hypervisor 是 公平 的 。 
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图 1.20 MASR 基准 测试 
a) 对 于 所 有 vCPU 使 用 一 个 物理 核 的 多 个 VM b) 为 每 个 VM vCPU 和 每 个 dom0 vCPU 
使 用 一 个 独占 物理 核 的 多 个 VM c) 使 用 Xen 默认 物理 核 分 配方 案 的 多 个 VM 


3. 采用 缓冲 污染 的 ZFG 

单 VM 测试 揭示 出 ， 各 Xen VM 实际 上 没有 同步 地 将 数据 写 到 硬盘 。 因 此 ， 选 
择 仅 执行 磁盘 测试 ， 这 是 尽 可 能 接近 同步 写 人 硬盘 的 情况 。 在 这 项 测试 中 ， 在 每 个 
轮 次 开始 ， 将 从 VM 到 真实 硬盘 驱动 的 缓冲 污染 ( 写 人 新 数据 )。 图 1.21a ~ 
图 1.21c 给 出 了 使 用 缓冲 污染 ZFC 基准 测试 的 扩展 性 结果 。 其 中 采用 三 种 不 同 的 物 
理 核 分 配方 案 ， 每 个 执行 10 个 轮 次 。 

结果 表明 ， 随 着 VM 数 增加 ， 所 有 三 种 CPU 方案 都 给 出 较 大 的 变 差 ， 这 表示 
对 于 这 项 任务 ， 在 公平 地 调度 各 VM 方面 ，Xen 是 有 困难 的 。 给 出 最 佳 性 能 的 方案 
是 针对 每 个 vCPU 采用 一 个 独占 物理 核 的 方案 。 当 相 比 于 针对 每 个 vCPU 有 一 个 独 
占 的 物理 核 时 ， 以 一 个 物理 核 服务 所 有 vCPU 的 方案 给 出 较 小 的 额外 负担 。 这 可 由 
如 下 事实 解释 ， 即 在 这 项 任务 中 ， 瓶 颈 是 硬盘 ， 即 使 对 所 有 vCPU 仅 有 一 个 核 时 也 
是 如 此 。 令 人 惊奇 的 是 ， 当 该 任务 采用 四 个 VM 执行 时 ，Xen 默认 方案 给 出 低 的 性 
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VM 数 


图 1.21 采用 缓冲 污染 的 ZFG 基准 测试 
a) 对 于 所 有 vCPU 使 用 一 个 物理 核 的 多 个 VM b) 为 每 个 VM vCPU 和 每 个 dom0 vCPU 使 用 
一 个 独占 物理 核 的 多 个 VM c) 使 用 Xen 默认 物理 核 分 配方 案 的 多 个 VM 


能 ， 这 显示 了 不 稳定 性 。 为 理解 为 什么 观察 到 这 种 不 稳定 性 ， 需 要 进行 进一步 的 深 
人 研究 。 

4. Iperf: 从 VM 到 网 络 测试 计算 机 的 UDP 数据 流 

图 1. 22a ~ 图 1. 22c 给 出 了 使 用 Iperf 基准 测试 程序 产生 从 VM 到 网 络 测试 计算 
机 的 UDP 数据 流 时 的 扩展 性 测试 结果 。 其 中 采用 三 种 不 同 的 物理 核 分 配方 案 ， 每 
种 方案 运行 10 个 轮 次 。 

结果 表明 ，Xen 默认 物理 核 分 配方 案 和 每 个 VM vCPU 一 个 独占 物理 核 的 方 
案 ， 具 有 类 似 的 性 能 ， 取 得 的 总 吞吐 量 接近 网 络 适 配器 的 理论 极限 。 对 于 所 有 
vCPU 一 个 物理 核 的 方案 ,瓶颈 不 是 网 络 适配器 而 是 CPU， 原 因 是 各 VM 不 能 产 
生 足 够 的 报 文 来 填 满 网 络 适配器 容量 。 在 所 有 方案 中 ，Xen 证 明了 在 资源 共享 方 
面 是 公平 的 。 

5，Linux 内 核 编译 

图 1.23a~ 图 1.23c 中 给 出 了 使 用 Linux 内 核 编 译 的 扩展 性 测试 结果 。 其 中 采 
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图 1.22 Iperf: 从 VM 到 网 络 测试 计算 机 的 UDP 数据 流 
a) 对 于 所 有 vCPU 使 用 一 个 物理 核 的 多 个 VM b) 为 每 个 VM vCPU 和 每 个 dom0 vCPU 
使 用 一 个 独占 物理 核 的 多 个 VM c) 使 用 Xen 默认 物理 核 分 配方 案 的 多 个 VM 


用 三 种 不 同 物理 核 分 配方 案 ， 每 个 执行 10 个 轮 次 。 

结果 表明 ，Xen 默认 方案 以 及 为 每 个 VM 和 每 个 dom0 vCPU 使 用 一 个 独占 物理 
核 的 方案 ， 均 可 良好 地 从 一 个 VM 扩展 到 四 个 VM， 显 示 出 没有 性 能 降级 。 为 所 有 
VM 和 domO 使 用 一 个 物理 核 的 方案 表明 ， 对 于 这 项 测试 ，CPU 是 瓶颈 ， 且 就 将 
CPU 在 各 VM 间 进 行 分 割 而 言 Xen hypervisor 是 公平 的 。 

6. 结论 

一 般 而 言 ， 当 扩展 到 多 个 VM 时 ，Xen 被 证 明 是 公平 的 。 对 于 一 些 测 试 ， 扩 展 
多 个 VM 影响 到 公平 性 ， 这 由 随 着 VM 数 增加 ， 结 果 中 增加 的 方差 得 到 证 明 。 同 样 
被 注意 到 的 是 ， 除 了 对 于 硬盘 测试 ， 将 所 有 vCPU 集中 到 一 个 物理 核 会 相当 地 降低 
VM 的 性 能 。 除 了 内 存 测试 外 ， 在 Xen 默认 方案 和 每 个 VM vCPU 一 个 物理 核 的 方 
案 的 性 能 之 间 没 有 显著 差异 ， 这 表明 对 于 执行 的 任务 ，CPU 缓存 预 留 不 是 一 个 主 
要 问题 。 需 要 额外 深入 研究 的 一 项 意外 结果 是 ， 当 由 四 个 VM 执行 测试 时 ， 硬 盘 测 
试 中 Xen 默认 方案 的 性 能 较 差 。 
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Al 1.23 Linux 内 核 编 译 
a) 对 于 所 有 vCPU 使 用 一 个 物理 核 的 多 个 VM b) 为 每 个 VM VCPU 和 每 个 dom0 vCPU 
使 用 一 个 独占 物理 核 的 多 个 VM c) 使 用 Xen 默认 物理 核 分 配方 案 的 多 个 VM 


1.5 小 结 


建议 新 互联 网 架构 的 研究 工作 被 分 成 两 类 : 一 元 论 或 纯粹 论 法 (其 中 所 提供 
架构 由 单个 通用 网 络 组 成 ， 它 支持 任何 服务 需求 ) 和 多 元 论 法 (其 中 所 提供 架构 
由 多 个 网 络 组 成 ， 构 建 每 个 网 络 来 处 理 一 种 服务 需求 ) 。 在 本 章 中 ， 分 析 了 在 支持 
多 元 论 架 构 中 当前 硬件 虚拟 化 技术 的 角色 作用 。 

作为 实现 路 由 器 虚拟 化 的 候选 者 ， 比 较 了 VMware, Xen 和 OpenVZ。 得 出 结 
论 ，VMware 不 是 路 由 器 虚拟 化 的 最 佳 方案 ， 原 因 是 在 测试 中 它 得 到 最 差 结 果 ， 而 
且 它 是 不 允许 修改 的 一 种 私有 解决 方案 (因为 不 能 得 到 它 的 源 代 码 ) 。 也 得 出 结 
ie, 虽然 在 多 数 测 试 中 OpenVZ 具有 极 好 的 性 能 结果 ， 因 为 它 取 得 低 的 网 络 性 能 ， 
所 以 也 不 是 最 佳 选择 ， 网 络 性 能 是 构造 虚拟 路 由 器 的 主要 考虑 之 一 。0OpenVZ 也 为 
虚拟 路 由 器 的 构造 提供 低 的 灵活 性 ， 这 是 因为 所 有 虚拟 环境 都 必须 不 仅 共享 相同 的 
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OS 而 且 要 有 相同 的 内 核 。Xen 为 虚拟 路 由 器 需求 提供 最 佳 匹配 (best fit)。 因 为 
Xen 是 一 个 开源 工具 ， 所 以 它 为 在 各 VM 内 支持 任意 OS 和 支持 定制 方面 提供 灵活 
性 。Xen 也 显示 出 良好 的 CPU 、 内 存 和 虚拟 化 网 络 性 能 ， 这 些 是 虚拟 路 由 需 转 发 操 
作 的 最 重要 资源 。 此 外 ，Xen 在 各 VM 间 提 供 公 平 的 资源 共享 ， 并 可 从 一 个 VM 扩 
展 到 四 个 VM， 没 有 由 hypervisor 导致 的 性 能 降级 。 
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未 来 互联 网 架构 提案 可 分 为 两 种 主要 方法 : 一 元 论 和 多 元 论 。 在 一 元 论 模 型 中 ， 
如 图 2. 1a 所 示 ， 网 络 有 一 个 整体 架构 ， 它 必须 足够 灵活 ， 以 便 支 持 所 用 种 类 的 将 出 
现 的 应 用 。 在 这 种 方法 中 ， 每 次 仅 有 一 个 协议 栈 运行 在 物理 基层 之 上 。 另 外 ， 多 元 论 
方法 ， 如 图 2. 1b [AND 05] 所 示 ， 是 基于 互联 网 必须 同时 支持 多 个 网 络 的 思想 的 ， 
每 个 网 络 运行 适合 一 项 给 定 应 用 之 需要 的 一 个 协议 栈 。 创 建 针对 特定 服务 而 设计 的 特 
定 网 络 的 做 法 ， 简 化 了 要 求 诸如 安全 、 移 动 性 或 服务 质量 等 特征 的 新 应 用 的 部 署 。 我 
们 声称 ， 为 提供 不 同 服务 而 设计 多 个 网 络 的 做 法 ， 比 为 同时 处 理 所 有 不 同 服务 而 设计 
一 个 独特 网 络 ， 要 容易 。 因 此 ， 多 元 论 方法 可 被 理解 为 基于 “分 而 治之 ”方法 的 一 
FOR (4pJEZSTI) 。 如 果 寻 找 可 涵盖 所 有 可 能 需求 的 单一 解决 方案 是 非常 困难 的 ， 那 
么 可 构造 带 有 支持 这 些 需求 的 多 个 网 络 就 是 一 种 可 行 的 替代 方法 。 这 个 特点 是 多 元 论 
架构 的 主要 论点 ， 原 因 是 一 元 论 方法 不 仅 必须 解决 所 有 的 已 知 互 联网 问题 ， 而 且 它 也 
要 演进 成 在 未 来 是 可 持续 运行 的 。 此 外 ， 多 元 论 模型 的 另 一 项 关键 优势 是 其 固有 的 后 
向 兼容 性 ， 原 因 是 当前 互联 网 可 以 是 并 行 运 行 的 被 支持 网 络 之 一 。 


C 当前 互联 网 
€ 网 元 





a) 


图 2.1 网 络 架构 :一元论 模型 ( 仅 支持 一 个 协议 栈 ) 和 多 元 论 模型 (支持 数 个 协议 栈 ) 
a) 一 元 论 模 型 b) 多 元 论 模 型 

多 元 论 提案 基于 多 个 网 络 运行 在 同一 基础 设施 之 上 的 同一 思想 [MAC 11, 
FEA 07, VER 07], ， 即 使 它们 在 报 文 格式 、 寻 址 方案 和 协议 方面 存在 差异 也 是 如 
此 。 因 为 这 些 网 络 共享 同一 个 物理 网 络 基层 ( 如 路 由 器 和 链 路 ) ， 所 以 对 基础 介质 
的 多 种 访问 必须 由 一 个 监测 器 进行 编排 (orchestrated) 。 这 个 监测 器 是 一 个 特殊 用 
途 的 软件 ， 它 将 共享 介质 虚拟 化 提供 给 运行 于 其 上 的 多 个 网 络 。 因 此 ， 每 个 网 络 的 
运行 ， 就 像 它 正在 使 用 给 定量 的 物理 资源 一 样 。 这 些 网 络 被 称 作 虚 拟 网 络 ， 作 为 使 
用 一 个 共享 物理 基层 的 结果 ， 它 们 必须 处 理性 能 挑战 。 相 比 于 一 元 论 架构 ， 这 项 附 
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加 任务 就 是 多 元 论 架 构 的 额外 人 负担， 原因 是 它 添加 了 一 个 软件 层 。 

基于 多 元 论 方法 ， 以 前 的 工作 (如 Horizon 项 目 团队 开发 的 工作 [HOR 10]) 
建议 使 用 两 个 不 同 的 虚拟 化 平台 ， 提 供 虚 拟 联网 : Xen 和 OpenFlow。 这 些 平台 以 一 
种 不 同方 式 攻克 在 多 个 虚拟 网 络 间 物理 资源 共享 的 问题 。 这 些 差异 导致 性 能 和 灵活 
性 之 间 的 折 中 ， 这 将 进一步 讨论 。 

在 本 章 ，2. 1 节 首 先 给 出 两 个 虚拟 化 平台 : Xen 和 OpenFlow。 接 着 ， 给 出 焦点 
在 每 个 平台 主要 特点 上 的 性 能 分 析 。 之 后 ， 描 述 系统 管理 的 接口 ， 它 们 必须 足够 友 
好 (以便 支持 多 个 虚拟 网 络 间 的 简单 资源 共享 管理 ) ， 同 时 也 必须 方便 其 上 的 动作 
(操作 ) (如 虚拟 网 络 拓扑 重新 配置 )。Horizon 项 目 为 Xen 和 OpenFlow 平台 设计 和 
开发 了 接口 ， 分 别 是 VNext [PIS 11] 和 OMNI [MAT 11]， 并 出 于 概念 验证 的 目 
的 ， 为 每 个 平台 建立 了 一 个 原型 [HOR 10]。 所 开发 的 多 数 接口 不 需要 人 类 干预 ， 
也 可 由 计算 机 代理 使 用 ， 自 治 地 控制 网 络 。 结 果 是 ， 这 些 接口 可 被 用 于 高 级 的 引导 
系统 ， 它 们 能 够 提供 自治 的 联网 服务 。2. 2 节 详 细 描 述 Xen 原型 中 使 用 的 接口 ， 而 
2.3 节 描 述 OpenFlow 原型 的 接口 。 最 后 ，2. 4 节 给 出 本 章 的 结论 。 


2.1 虚拟 网 络 : 隔离 、 性 能 和 趋势 


本 节 描 述 不 同 虚拟 网 络 间 共 享 网 络 物理 基层 的 问题 2 。 给 出 虚拟 化 物理 网 络 的 
两 种 代表 性 方法 (Xen [EGIO7] 和 OpenFlow [MCK 08]) 的 分 析 ， 并 讨论 针对 虚 
拟 联网 使 用 这 些 技 术 。 主 要 目标 是 深入 考察 网 络 虚拟 化 的 优点 和 缺点 ， 其 中 网 络 虚 
拟 化 用 作 未 来 互联 网 的 多 元 论 架 构 的 基础 。 到 此 为 止 ， 实施 了 各 项 试验 ， 评 估 作 为 
一 个 虚拟 化 软件 路 由 器 时 Xen 和 OpenFlow [MAT 09] 的 性 能 。 依 据 给 出 的 结果 和 
以 前 的 工作 ,发现 了 灵活 性 和 性 能 之 间 的 折 中 ， 表 明 当 使 用 虚拟 网 络 时 ， 共 享 数据 
平面 的 使 用 可 以 是 一 项 重要 的 架构 选择 。 另 一 个 关键 点 是 ， 使 用 共享 的 数据 平面 ， 
在 没有 任何 可 测量 到 的 性 能 损失 情况 下 ， 相 比 于 单个 虚拟 网 元 处 理 相 同 报 文 速 率 的 
场景 ，Xen 和 OpenFlow 可 复 用 数 个 虚拟 网 络 。 


2.1.1 网 络 虚拟 化 方法 


将 虚拟 化 看 作 一 个 资源 抽象 ， 这 支持 将 一 项 物理 资源 分 片 成 具有 不 同 能 力 的 相 
同类 型 的 几 项 虚拟 资源 ， 如 图 2.2 所 示 。 这 个 抽象 经 常 由 一 个 软件 层 实现 ， 该 层 提 
供 非 常 类 似 于 真实 接口 的 “虚拟 分 片 式 接口 "。 在 相同 资源 之 上 几 个 虚拟 分 片 的 共 
存 是 可 能 的 ， 原 因 是 虚拟 化 层 将 真实 资源 和 上 面 的 层 进行 了 解 契 。 图 2.2 给 出 了 虚 
拟 化 的 两 个 例子 : 计算 机 虚拟 化 和 网 络 虚拟 化 。 计 算 机 虚拟 化 抽象 是 由 虚拟 机 监测 


O ”本 节 部 分 内 容 在 以 前 的 工作 中 出 现 过 [FER 11]。 
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器 (VMM) 实现 的 ， 它 以 非常 类 似 于 一 个 计算 机 硬件 接口 的 一 个 接口 〈 硬 件 抽象 
E) 提供 虚拟 机 (VM) 。 这 个 接口 包括 一 个 处 理 器 、 内 存 、 输 入 /输出 (1/0) E 
备 等 。 因 此 ， 每 个 VM 具有 直接 运行 在 物理 硬件 之 上 的 印象 ， 但 实际 上 物理 硬件 是 
在 几 个 VM 间 共 享 的 。 我 们 称 这 种 类 型 的 资源 共享 为 分 片 ， 原 因 在 于 各 VM 是 隔离 
的 : 一 个 VM 不 能 干扰 另 一 个 VM。 计 算 机 虚拟 化 被 广泛 用 于 数据 中 心 ， 其 中 在 单 
台 物 理 机 器 中 运行 几 台 服务 器 (软件) 。 除 了 节省 能 量 和 降低 维护 成 本 外 ， 这 项 技 
术 具 有 (作为 其 最 重要 的 特征 ) 灵活 性 ， 使 每 台 VM 都 有 其 自己 的 操作 系统 、 应 
用 、 配 置 规则 和 管理 规程 。 在 每 个 虚拟 分 片 内 运行 一 个 定制 的 协议 栈 的 可 能 性 ， 是 
将 虚拟 化 应 用 到 网 络 的 主要 动机 [AND 05], 。 如 图 2. 2 所 示 ， 网 络 虚拟 化 类 似 于 计 
算 机 虚拟 化 ， 其 中 共享 的 资源 是 网 络 而 已 。 这 个 概念 不 是 新 概念 ， 它 已 经 用 在 虚拟 
专 网 (VPN) 和 虚拟 局 域 网 (VLAN) 之 中 。 但是， 如今 甚至 存在 新 的 技术 支持 路 
由 咒 虚 拟 化 。 在 这 种 情形 中 ， 每 个 虚拟 路 由 器 分 片 可 实现 一 个 定制 的 网 络 协议 栈 。 


1 2 n n 


a) b) c) 





图 2.2 虚拟 化 :“ 分 片 的 ”资源 、 虚 拟 机 和 虚拟 路 由 器 
a) 通用 虚拟 化 b) 计算 机 虚拟 化 c) 网 络 虚拟 化 


网 络 虚拟 化 的 方法 在 它们 提供 的 抽象 级 别 上 存在 差异 ， 这 可 由 在 架构 设计 中 虚 
拟 化 层 所 处 位 置 加 以 刻画 。 图 2. 3 比较 了 对 一 个 网 元 实施 虚拟 化 的 两 种 基本 方法 。 
图 2. 3a 给 出 常规 网 元 架构 ， 有 单一 控制 平面 和 数据 平面 。 在 一 台 路 由 器 中 ， 控 制 
平面 负责 运行 网 络 控制 软件 ， 如 路 由 协议 【如 路 由 信息 协议 (RIP) 、 开 放 最 短路 
径 优先 (OSPF) 和 边界 网 关 协议 (BGP)] 和 网 络 控制 协议 [ 如 互联 网 控制 消息 
协议 (ICMP)], ， 而 数据 平面 负责 实现 转发 表 和 硬件 路 径 。 对 路 由 规程 实施 虚拟 
化 ,意味 着 在 网 元 架构 的 某 个 层次 插入 虚拟 化 层 ， 在 单一 物理 网 元 之 上 支持 多 个 虚 
拟 网 元 的 共存 。 假 设 在 控制 平面 和 数据 平面 之 间 存 在 一 个 虚拟 化 层 ， 那 么 仅 有 控制 
平面 被 虚拟 化 ， 如 图 2. 3b 所 示 。 在 这 种 情形 中 ， 数 据 平面 由 所 有 虚拟 网 络 共享 ， 
而 每 个 虚拟 网 络 运行 其 自己 的 控制 软件 。 相 比 于 常规 网 络 架构 ， 这 种 方法 极 大 地 改 
进 了 网 络 可 编程 能 力 ， 原 因 是 它 支 持 运行 多 个 定制 的 协议 栈 ， 而 不 是 单个 默认 的 协 
议 栈 。 例 如 ， 对 网 络 1 、 网 络 2 和 网 络 3 编程 不 同 网 络 协议 是 可 能 的 ， 如 图 2.3b 所 
示 。 在 第 二 种 网 络 虚 拟 化 方法 中 ， 控 制 平面 和 数据 平面 都 被 虚拟 化 ， 如 图 2. 3e 所 
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示 。 在 这 种 情形 中 ， 除 了 控制 平面 外 ， 每 个 虚拟 网 元 都 实现 其 自己 的 数据 平面 ， 这 
其 至 更 加 改进 了 网 络 可 编程 能 力 。 这 种 方法 以 报 文 转发 性 能 为 代价 ， 支 持 数 据 平 面 
定制 ， 原 因 是 数据 平面 不 再 专用 于 一 项 共同 的 任务 。 在 2. 1. 3 节 的 前 两 部 分 详细 讨 
论 了 网 络 可 编程 能 力 和 性 能 之 间 的 折 中 。 


控制 平面 (CP) 





a) 


图 2.3 网 络 模型 
a) 常规 模型 b) 仅 带 有 虚拟 化 控制 平面 (CP) 的 多 元 论 模 型 
c) 带 有 虚拟 化 控制 平面 (CP) 和 数据 平面 (DP) 的 多 元 论 模 型 


值得 指出 的 是 ， 仅 通过 虚拟 化 控制 平面 ， 就 可 能 将 虚拟 化 方法 分 成 更 多 类 ， 这 
取决 于 在 虚拟 网 元 间 共 享 之 数据 平面 的 隔离 等 级 。 如 果 要 求 一 种 强 隅 离 ， 那 么 每 个 
虚拟 控制 平面 必须 仅 可 访问 它 的 数据 平面 分 片 ， 不 能 干扰 其 他 分 片 。 另 外 ， 如 果 整 
个 数据 平面 是 在 虚拟 控制 平面 间 共 享 的 ， 那 么 就 可 能 出 现 一 个 虚拟 控制 平面 干扰 其 
他 虚拟 控制 平面 的 情况 。 例 如 ， 单 个 虚拟 控制 平面 可 以 其 自己 的 表 项 填充 整个 转发 
表 ， 这 会 导致 其 他 虚拟 网 络 丢弃 它们 的 报 文 。 


2.1.2 网 络 虚拟 化 技术 


在 本 节 详 细 给 出 可 用 于 网 络 虚拟 化 的 两 项 技术 : Xen 和 OpenFlow。 

Xen 是 一 个 开源 VMM， 也 称 作 hypervisor， 它 运行 在 商用 硬件 平台 上 [EGI 
07] 。Xen 架构 由 一 个 VMM (位 于 物理 硬件 之 上 ) 和 几 个 域 〈 同 时 运行 在 hypervi- 
sr 之 上 ， 也 称 作 VM) 组 成 ， 如 图 2.4 所 示 。 每 个 VM 可 有 其 自己 的 操作 系统 和 应 
Ho VMM 控制 多 个 域 到 硬件 的 访问 ， 也 管理 这 些 域 间 的 资源 共享 。 因 此 ，VMM x 
要 任务 之 一 是 隔离 不 同 VM， 即 一 个 VM 的 执行 一 定 不 要 影响 其 他 VM 的 性 能 。 另 
外 ， 为 提供 可 靠 的 和 高 效 的 硬件 支持 ， 所 有 设备 驱动 都 保 持 在 称 为 域 0 (dom0) 
一 个 孤立 的 驱动 域 中 [EGI 07] 。 相 比 其 他 域 [ 称 作 非特 权 域 (domUs) ] ， 域 0 R 
有 特殊 权限 ， 原 因 是 它 具 有 物理 机 器 硬件 的 全 部 访问 权限 。 非 特权 域 ， 也 称 作 用 户 
域 ， 拥 有 虚拟 驱动 ， 其 运行 方式 就 像 它 们 可 直接 访问 一 样 。 不 过 ， 这 些 虚拟 驱动 与 
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dom0 通信 ，dom0 具有 物理 硬件 的 访问 权 。 


用 户 域 1 mew.) (Pn 
(domU1) (domU2) (domUn) 


[Cem JC wm _) 





fe- 前 台 接 口 _ be- 后 台 接口 ph- 物 理 接口 


图 2.4 Xen 架构 : 虚拟 机 监测 器 (VMM)、 驱 动 域 (dom0) 和 用 户 域 (domUs) 


Xen 虚拟 化 单个 物理 网 络 接 口 ， 方 法 是 将 来 自 物理 接口 的 到 达 报 文 解 复 用 到 
domUs， 并 在 相反 方向 ， 复 用 由 这 些 domUs 产生 的 外 发 报 文 。 这 个 规程 ， 称 作 网 络 
VO 虚拟 化 ， 工 作 过 程 如 下 。 域 0 直接 访问 IO 设备 (通过 使 用 它 的 原生 设备 驱 ， 
动 ) ， 它 也 代表 domUs 执行 L/O 操作 。 另 外 ，domUs 利用 虚拟 WO 设备 〈 由 虚拟 驱 
动 控制 ) 向 dom0 请 求 进行 设备 访问 [ MEN 06], ， 如 图 2. 4 所 示 。 每 个 domU 有 其 
自己 的 虚拟 网 络 接口 ， 称 作 前 台 接口 ， 是 网 络 通信 和 所 需要 的 。 后 台 接 口 是 在 dom0 
中 对 应 于 一 个 domU 的 每 个 前 台 接 口 创建 的 ， 并 在 dom0 中 作为 虚拟 接口 的 一 个 代 
理 。 前 台 接 口 和 后 台 接 口 是 通 过 一 个 0 通道 相互 连接 的 ， 该 通道 采用 一 种 零 复制 
机 制 将 包含 报 文 的 物理 页 重新 映射 到 目标 域 。 采 用 这 种 方式 ， 在 后 台 接 口 和 前 台 接 
口 之 间 交 换 报 文 [MEN 06 ] 。 前 台 接 口 可 由 运行 在 domUs 中 的 操作 系统 检测 到 作 
为 真实 的 接口 。 不 过 ，dom0 中 的 后 台 接口 是 连接 到 物理 接口 的 ， 且 通过 一 个 虚拟 
网 桥 相 互 连 接 。 这 是 Xen 使 用 的 默认 架构 ， 称 作 网 桥 模式 。 因 此 L/O 通道 和 网 桥 
在 domUs 中 创建 的 虚拟 接口 和 物理 接口 之 间 建 立 一 条 通信 路 径 。 

不 同 虚拟 网 元 可 使 用 Xen 加 以 实现 ， 原 因 是 它 支 持 多 个 VM 同时 运行 在 相同 
硬件 上 [EGI 07] ， 如 图 2. 5 所 示 。 在 这 种 情形 中 ， 每 个 VM 运行 一 台 虚 拟 路 由 
器 ， 它 有 其 自己 的 控制 平面 和 数据 平面 ， 原 因 是 Xen 虚拟 化 层 处 在 一 个 较 低 
层次 。 

OpenFlow [MCK 08] 在 大 学 校园 上 支持 使 用 布线 机 柜 ， 这 不 仅 可 用 于 生产 网 
络 ， 而 且 可 用 于 试验 网 络 。OpenFlow 项 目 是 由 斯 坦 福 大 学 提出 的 ， 目 标 是 与 生产 
网 络 并 行 地 为 创新 建立 虚拟 环境 ， 其 中 使 用 诸如 交换 机 、 路 由 器 、 接 人 点 和 个 人 计 
算 机 等 网 元 。 

OpenFlow 为 提供 虚拟 网 络 环境 给 出 一 种 新 架构 。 主 要 思想 是 控制 平面 和 数据 
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图 2.5 Xen 虚拟 联网 : 每 台 虚 拟 路 由 器 都 有 一 个 数据 平面 和 控制 平面 


平面 的 物理 隔离 。 因 此 ， 不 同 网 元 执行 报 文 转发 规程 (数据 平面 ) 和 网 络 控制 规 
程 (控制 平面 )。 转 发 单元 的 虚拟 化 是 由 一 个 共享 的 流 表 完 成 的 ， 它 代表 数据 平 
面 ， 而 所 有 控制 平面 是 以 中 心 方式 处 在 称 作 控制 器 的 一 个 节点 中 的 ， 它 运行 控制 每 
个 虚拟 网 络 的 应 用 。OpenFlow 运行 的 一 个 例子 如 图 2. 6 所 示 。 


六 控制 器 
pees, 
E- N 
y^ 


OpenFlow 





Sls 


2.6 OpenFlow 虚拟 联网 : 每 个 节点 一 个 共享 的 数据 
平面 ， 所 有 的 控制 平面 都 在 一 个 节点 中 


OpenFlow 协议 定义 转发 节点 和 网 络 控 制 器 之 间 的 通信 。OpenFlow 基于 每 个 转 
发 节点 和 控制 器 之 间 一 条 安全 信道 的 建立 上 ， 控 制 器 使 用 这 条 信道 监测 和 配置 转发 
节点 。 每 次 有 一 条 新 的 报 文 到 达 一 个 转发 单元 且 没 有 以 前 配置 的 流 时 ， 该 报 文 的 前 
面 一 些 位 被 转发 到 控制 器 ， 控 制 器 在 所 选中 的 转发 单元 中 为 这 条 报 文 设置 一 条 路 
径 。 控 制 器 也 依据 常规 层 2 (L2) 和 层 3 (L3) 路 由 为 要 转发 的 一 条 流 设置 正常 的 
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处 理 动作 ， 就 像 不 存在 OpenFlow 一 样 。 这 就 是 为 什么 在 不 影响 正在 进行 的 流量 条 
件 下 ，OpenFlow 可 与 生产 网 络 并 行使 用 的 原因 。 

OpenFlow 中 的 数据 平面 是 由 首部 字段 、 计 数 器 和 动作 描述 的 一 个 流 表 。 首 部 
字段 是 描述 报 文 首部 的 一 个 12 元 组 的 结构 ， 如 图 2.7 所 示 。 通 过 为 每 个 字段 设置 
一 个 值 或 使 用 一 个 通配符 仅 设 置 各 字段 的 一 个 子 集 ， 这 些 字段 可 指定 一 条 流 。 流 表 
也 支持 子 网 掩 码 的 使 用 ， 如 果 所 用 硬件 也 支持 这 种 匹配 [PFA 09 ] 。 这 个 12 元 组 
结构 为 报 文 转发 赋予 高 度 灵 活性 ， 因 为 一 条 流 不 仅 基 于 目的 互联 网 协议 (IP) 地 
H [ 像 在 常规 传输 控制 协议 (TCP) ZIP 网 络 中 那样 ] ， 而 且 基 于 TCP 端口 、 介 质 
访问 控制 (MAC) 等 。 因 为 各 条 流 可 依据 层 2 地 址 进行 设置 ， 所 以 OpenFlow 的 转 
发 单元 也 被 称 作 OpenFlow 交换 机 。 但 是 ， 这 不 一 定 就 意味 着 报 文 转 发 是 在 层 2 进 
47H). OpenFlow 未 来 目标 之 一 是 处 理 用 户 描述 的 首部 字段 ， 这 意味 着 报 文 首部 将 
不 仪 由 固定 字段 所 描述 ， 而 且 由 虚拟 网 络 管理 员 所 指定 的 字段 组 合 所 描述 。 这 将 赋 
F OpenFlow 如 下 能 力 ， 即 对 属于 运行 任意 协议 栈 的 网 络 的 报 文 进行 转发 。 


进入 | 以 太 | 以 太 网 | 以 太 网 | VLAN| VLAN | IP | IP | IP | IP | TCP | TCP 动作 
端口 | 网 源 | 目的 | 类 型 | ID | 优先 级 | 源 | 目的 | 协议 | ToS | 源 端口 目的 端口 
一 一 一 一 一 一 一 一 一 一 一 一 一 首部 = 


图 2.7 一 个 OpenFlow 网 络 中 的 一 条 流 表 项 


在 首部 字段 之 后 ， 流 描述 后 跟 有 计数 器 ， 它 们 用 于 节点 监测 。 计 数 器 计算 诸如 
流 时 长 和 所 转发 字 节 总 数 等 数据 。 流 描述 中 的 最 后 字段 是 一 些 动作 ， 是 在 转发 单元 
中 一 条 特定 流 的 每 条 报 文 上 可 采取 的 指令 集合 。 这 些 动作 不 仅 包 括 将 一 条 到 达 的 报 
文 交 换 到 一 个 目的 端口 ， 而 且 包括 改变 首部 字段 (诸如 VLAN 标识 符 以 及 源 和 目 
的 地 址 ) 。 

控制 器 节点 是 网 络 中 的 一 个 中 央 单 元 ， 可 与 所 有 节点 通信 ， 配 置 它们 的 流 表 。 
控制 器 运行 一 个 网 络 操作 系统 ， 它 提供 虚拟 网 络 管理 应 用 ， 这 是 网 络 配置 的 基本 功 
能 。 因 此 ，OpenFlow 中 的 控制 器 是 作为 网 络 应 用 和 转发 单元 之 间 的 一 个 接口 发 挥 
作用 的 ， 提 供 访 问 来 自 一 条 流 的 各 条 报 文 和 监测 节点 的 基本 功能 。OpenFlow 可 与 
兼容 于 OpenFlow 协议 的 任何 控制 器 一 起 工作 ， 如 网 络 操 作 系 统 (NOX) [GUD 
08 ] 。 在 这 种 情形 中 ， 每 个 控制 平面 是 由 运行 于 NOX 之 上 的 一 个 应 用 集合 组 成 的 。 
因此 ，OpenFlow 中 的 一 个 虚拟 网 络 是 由 其 控制 平面 定义 的 ， 是 运行 于 控制 器 之 上 
的 一 个 应 用 集合 ， 且 其 相应 流 处 于 控制 之 下 ， 如 图 2. 8 所 示 。 

使 用 单 控制 器 模型 ， 就 可 能 创建 许多 虚拟 网 络 。 但 是 ， 注 意 ， 运 行 于 同一 操作 
系统 之 上 的 不 同 应 用 是 没有 隔离 的 。 结 果 是 ， 如 果 一 个 应 用 存在 某 个 缺陷 ， 则 它 可 
终止 控制 器 ， 损 害 所 有 其 他 虚拟 网 络 。FlowVisor 是 与 OpenFlow 一 起 使 用 的 一 个 工 
具 ， 支 持 不 同 控制 器 作用 在 同一 物理 网 络 之 上 [SHE 10], FlowVisor 作为 转发 单元 
和 各 控制 器 之 间 的 一 个 代理 ， 其 中 假定 〈 例 如 ) 每 个 网 络 一 个 控制 器 。 使 用 这 个 








34 虚拟 网 络 一 一 下 一 代 互 联网 的 多 元 化 方法 










OpenFlow 协 议 网 络 操作 系统 


控制 器 
图 2.8 中 心 式 OpenFlow 控制 器 模型 


模型 ， 确 保 一 个 虚拟 网 络 中 的 故障 不 会 影响 其 他 虚拟 网 络 ， 就 是 可 能 的 。 

基于 分 布 式 转发 单元 (已 经 为 运行 一 个 网 络 提供 基本 功能 ) 和 中 心 式 控制 平 

面 的 思想 ，OpenFlow 提供 一 个 灵活 的 基础 设施 。 使 用 这 个 基础 设施 ， 将 物理 网 络 
分 片 成 多 个 虚拟 网 络 就 是 可 能 的 。 在 OpenFlow 中 ， 一 个 网 络 的 实例 化 仅 是 在 控制 
器 中 创建 应 用 的 某 个 集合 。 依 据 进入 网 络 的 报 文 ， 将 应 需 地 创建 新 的 网 络 。Open- 
Flow 也 为 重新 分 配 网 络 资源 提供 一 个 灵活 的 基础 设施 。 在 OpenFlow 中 重新 分 配 一 
个 网 络 仅 意 味 着 对 每 个 参与 节点 的 流 表 重 新 编程 。 对 于 控制 器 ， 这 是 一 项 简单 的 操 
作 ， 原 因 是 它 知道 物理 设备 处 在 哪里 以 及 它们 是 如 何 连接 的 。 


2.1.3 Xen 和 OpenFlow 网 络 虚拟 化 技术 的 特征 


Xen 和 OpenFlow 都 不 是 针对 支持 互联 网 多 元 论 架构 而 开发 的 。 不 过 ， 迄 今 ; 

I, 它们 是 一 个 虚拟 网 络 基层 的 最 佳 商 用 方案 。 评 估 这 些 技术 的 主要 特征 ， 突 出 它 
们 在 支持 多 个 网 络 和 为 创新 提供 灵活 性 方面 的 优势 和 劣势 。 

Xen 和 OpenFlow 具有 不 同 的 虚拟 化 概念 。Xen 通过 将 物理 网 络 单元 分 片 成 不 
同 的 并 发 虚拟 路 由 器 而 创建 虚拟 网 络 。 结 果 是 ， 将 一 个 虚拟 网 络 看 作 分 布 于 物理 基 
础 设施 之 上 互联 的 虚拟 路 由 器 集合 。 另 外 ，OpenFlow 通过 将 网 络 控 制 分 片 成 多 个 
控制 平面 (设置 每 台 交 换 机 的 转发 表 ) 而 创建 虚拟 网 络 。 因 此 ， 使 用 OpenFlow, 
一 个 虚拟 网 络 被 定义 为 具有 共性 特征 的 流 集合 ， 它 们 由 运行 在 OpenFlow 控制 器 上 
的 相同 应 用 集合 编排 使 用 。Xen 和 OpenFlow 虚拟 化 模型 之 间 的 差异 ， 影 响 扩 展 性 、 
报 文 处 理 、 报 文 转发 和 基本 管理 工具 的 使 用 。 

1. 可 编程 能 力 和 网 络 处 理 

多 元 论 方 法 的 主要 优势 之 一 是 支持 创新 。 作 为 一 个 结果 ， 网 络 必须 足够 灵活 ， 
以 便 在 可 用 物理 基础 设施 之 上 提供 端 到 端 路 径 ， 并 确保 管理 员 对 网 络 的 全 部 控制 权 
限 ， 这 包括 协议 栈 的 选择 、 转 发 规则 和 报 文 处 理 等 。 

因为 Xen 虚拟 化 层 是 直接 运行 在 硬件 之 上 的 ， 所 以 每 个 虚拟 路 由 器 都 可 访问 
所 有 计算 机 部 件 ， 如 内 存 、 处 理 器 和 O 设备 。 因 此 ， 网 络 管理 员 可 自由 地 通过 虚 
拟 化 层 选 择 每 种 部 件 。 因 此 ， 可 为 每 个 虚拟 网 络 定义 不 同 的 操作 系统 、 转 发 表 、 转 
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发 规则 等 。 此 外 ， 数 据 平面 和 控制 平面 可 是 完全 虚拟 化 的 ， 这 样 得 到 网 络 控 制 和 管 
理 的 一 个 功能 强大 的 和 灵活 的 平台 ， 如 图 2. 3c 所 示 。 通 过 使 用 Xen， 就 可 能 添加 
新 的 功能 ， 如 逐 跳 报 文 处 理 ， 这 是 针对 互联 网 中 认证 和 访问 控制 的 一 个 重要 特征 。 
添加 依据 报 文 的 签名 ， 将 解决 原 互 联网 的 遗留 安全 问题 ， 在 原 互 联网 中 因为 网 络 的 
“僵化 ” ， 这 个 问题 是 不 能 有 所 改变 的 [CLA 04], 

OpenFlow 虚拟 化 模型 不 同 于 Xen， 因 为 虚拟 分 片 是 一 条 流 ， 且 动作 是 与 流 相关 
的 ， 而 不 是 与 报 文 相 关 的 。OpenFlow 提供 一 种 简单 的 报 文 转发 方案 ， 其 中 网 元 实 
施 流 表 查找 ， 转 发 一 条 到 达 的 报 文 。 如 果 没 有 匹配 ， 则 报 文 被 转发 到 控制 器 ， 从 而 
使 控制 器 可 在 每 个 节点 上 设置 用 来 转发 相应 报 文 的 一 条 转发 规则 。OpenFlow 协议 
版 本 1 规定 控制 器 可 设置 流动 作 ， 这 样 可 使 在 转发 报 文 之 前 修改 一 个 首部 字段 。 例 
如 ， 在 转发 报 文 到 下 一 个 网 元 之 前 ， 转 发 单元 可 改变 目的 地 址 ， 将 报 文 转发 到 一 个 
中 间 设 备 。 虽 然 流 操作 可 由 OpenFlow 容易 地 加 以 处 理 ， 但 诸如 报 文 签名 验证 等 报 
文 级 特征 不 是 高 效 的 ， 原 因 是 它们 必须 由 控制 器 或 一 个 中 间 设 备 执行 。 

就 灵活 性 而 言 ，OpenFlow 的 主要 劣势 是 ， 所 有 虚拟 网 络 都 必须 基于 相同 原 语 
( 流 表 查 找 、 通 配 符 匹 配 和 动作 ) 转发 报 文 ， 原 因 是 在 每 个 网 元 中 所 有 虚拟 网 络 共 
享 单个 数据 平面 。 另 外 ，Xen 向 不 同 虚 拟 网 络 提供 独立 的 数据 平面 。 为 增加 灵活 
性 ，OpenFlow 提供 一 个 细 粒 度 的 转发 表 ， 这 上 比 Xen 所 采用 的 当前 TCP/IP 所 用 的 表 
要 远 较 灵活 。 当 前 ，Xen 提供 基于 IP 路 由 的 一 个 转发 表 ， 这 意味 着 转发 平面 仅 基 
于 源 一 目的 IP 地 址 。 相 比较 而 言 ，OpenFlow 使 用 一 个 N 维 空间 定义 每 条 流 ， 其 中 
N 是 首部 中 可 用 来 规定 一 条 流 的 字段 数 ， 如 图 2.9 所 示 。 因 此 ， 基 于 所 有 的 N 维 或 
基于 一 个 通配符 定义 一 条 流 ， 这 将 一 条 流 的 识别 缩小 到 相关 首部 字段 的 一 个 子 集 
[MCK 08 ] 。 使 用 这 样 一 种 转发 表 的 结果 是 ， 使 报 文 转 发 不 仅 基于 目的 地 址 ， 而 且 
基于 其 他 参数 ， 如 应 用 类 型 。 虽 然 同 样 的 转发 表 也 可 在 Xen 中 实现 ， 但 目前 还 是 
不 可 用 的 。 






ax 
M 匹配 字段 .2 和 N 
的 所 有 路 由 
来 自 节点 /网 络 x a 
& 了 的 所 有 路 由 
三 字段 2 
P 
x * 不 管 字段 1 为 何 ,匹配 字段 
源 IP N 和 2 的 所 有 路 由 


a) b) 
图 2.9 在 基于 TCP/IP 网 络 和 基于 OpenFlow 网 络 中 的 转发 表 
a) SEF TCP/IP 定义 的 流 b) 基于 OpenFlow 定义 的 流 


涉及 可 编程 能 力 的 Xen 和 OpenFlow 之 间 的 另 一 项 主要 差异 是 控制 平面 模型 。 
在 Xen 中 ， 所 有 虚拟 节点 都 有 数据 平面 和 控制 平面 。 结 果 ， 网 络 控制 是 去 中 心 化 
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的 。 另 外 ， 在 OpenFlow 中 ， 每 个 节点 仅 有 数据 平面 ， 控 制 平面 是 集中 在 控制 器 上 
的 。 相 比 于 一 种 去 中 心 式 方法 ， 集 中 控制 平面 简化 了 网 络 控制 算法 的 开发 。 但 是 ， 
一 种 中 心 式 控 制 要 求 在 网 络 中 存在 一 台 额 外 的 服务 器 ， 这 也 引入 了 一 个 网 络 故 
障 点 。 

2. 转发 性 能 

多 元 论 架 构 的 一 个 重要 需求 是 构建 在 提供 高 的 报 文 转发 性 能 的 一 个 基层 上 的 。 
报 文 转发 不 仅 取决 于 所 用 硬件 ， 而 且 取 决 于 每 项 技术 所 提供 的 逻辑 。 本 节 假 定 ， 
Xen 和 OpenFlow 都 运行 在 相同 的 硬件 上 ， 以 便 评 估 每 项 技术 对 报 文 转发 所 施加 的 
损失 。 

因为 将 每 个 VM 看 作 一 台 虚 拟 路 由 器 ， 所 以 Xen 作为 一 台 路 由 器 的 性 能 是 一 个 
关键 点 。 基 本 上 来 说 ，Xen 的 性 能 取决 于 报 文 转发 被 处 理 的 域 。 对 于 每 台 虚拟 路 由 
器 ， 报 文 转发 可 由 运行 在 对 应 于 虚拟 路 由 器 的 运行 于 domU 上 的 操作 系统 或 由 
dom0 执行 。 在 第 一 种 情形 中 ， 在 dom0 和 domU 之 间 移 动 报 文 诱发 控制 额外 负担 ， 
这 影响 了 整体 系统 性 能 。 在 第 二 种 情形 中 ， 进 出 所 有 虚拟 路 由 器 的 报 文 都 由 dom0 
转发 ，dom0 同时 处 理 多 个 转发 表 。 

Xen 报 文 转发 的 性 能 也 取决 于 在 网 络 接口 之 间 移 动 报 文 所 用 的 模式 : 网 桥 或 路 
由 模式 [EGI 07] 。 网 桥 模 式 是 Xen 使 用 的 默认 网 络 模式 ， 如 图 2.4 所 示 。 不 过 ， 
这 种 模式 不 太 适 合 一 台 路 由 器 ， 因 为 它 需 要 每 台 设 备 有 一 个 以 上 的 物理 接口 。 图 
2. 10a 给 出 一 个 带 有 两 个 物理 接口 的 网 桥 模 式 例子 。 在 dom0 中 有 两 个 网 桥 ， 每 个 
物理 接口 一 个 ， 将 后 台 接 口 和 物理 接口 连接 起 来 。 在 这 种 情形 中 ， 报 文 转发 可 在 
dom0 处 通过 使 用 层 2 或 层 3 协议 执行 。 令 p 是 到 达 物 理 接 口 ph0 的 一 条 报 文 ， 它 
必须 被 转发 到 物理 接口 phl。 首 先 ,p 由 运行 在 dom0 上 的 设备 驱动 处 理 。 此 时 , p 
处 于 ph0 中 ， 它 连接 到 网 桥 br0。 这 个 网 桥 解 复 用 报 文 p?， 并 依据 目的 MAC 地 
址 ， 将 之 移动 到 后 台 接 口 be00。 此 后 ， 经 过 hypervisor 通过 使 用 1/0 将 p 从 be00 
移动 到 后 台 接 口 fe0。 之 后 报 文 p 被 转发 到 前 台 接口 fl1， 此 后 ， 使 用 另 一 个 1/0 
信道 将 p 移动 到 后 台 接 口 be01。 这 个 接口 处 在 物理 接口 phl 的 相同 网 桥 bri 中 。 
Ht, p 到 达 它 的 外 发 接口 。 值 得 指出 的 是 ， 为 转发 一 条 报 文 ，hypervisor 被 调用 
了 两 次 。 

在 如 图 2. 10b 所 示 的 路 由 器 模式 中 ，dom0 使 用 物理 接口 ， 每 个 接口 关联 一 个 
IP 地 址 。 结 果 ， 路 由 器 模式 不 要 求 网 桥 连接 每 个 物理 接口 和 IO 信道 。 因 此 ， 在 
domO 处 从 一 个 物理 接口 到 另 一 个 接口 的 报 文 转发 和 在 原生 Linux 中 一 样 执行 。 在 
这 种 情形 中 ， 如 果 domo 被 用 作 一 个 共享 的 数据 平面 ( 见 图 2.3b)， 则 不 调用 
hypervisor。 在 路 由 器 模式 中 ， 仅 当 每 台 路 由 器 实现 其 自己 的 数据 平面 时 才 调 用 
hypervisor， 如 图 2. 3c 所 示 。 在 这 种 情形 中 ， 报 文 被 路 由 到 与 目的 domU 相关 联 的 
后 台 接 口 ， 之 后 经 过 hypervisor 通过 使 用 VO 通道 被 移动 到 前 台 接 口 。 之 后 报 文 被 
移动 到 后 台 接 口 ， 最 后 路 由 到 外 发 物理 接口 。 为 使 domUs 发 送 和 接收 报 文 ， 也 向 
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图 2.10 用 于 报 文 转发 的 Xen 网 络 架 构 
a) 网 桥 模 式 b) 路 由 器 模式 


后 台 接口 指派 IP 地址 ， 这 与 网 桥 模 式 不 同 。 

为 报 文 转发 使 用 VM ， 支 持 基于 Xen 的 虚拟 联网 高 度 可 编程 能 力 。 每 个 网 络 可 
被 配置 ， 并 可 实施 处 理 以 决定 在 每 条 所 接收 报 文 上 采取 的 动作 。 但 是 ， 如 果 与 一 个 
非 虚拟 化 设备 相 比 ， 这 个 特点 降低 了 报 文 转发 性 能 。 为 提高 报 文 转发 性 能 ， 所 有 必 
要 的 规程 都 可 在 dom0 上 执行 ， 仅 留 下 控制 平面 运行 在 其 相应 的 VM 上 。 当 报 文 转 
发 在 dom0 中 完成 时 ， 对 每 台 虚 拟 路 由 器 ，Xen 有 一 个 控制 平面 ， 仅 有 一 个 数据 平 
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面 为 所 有 虚拟 网 络 共享 ， 这 一 点 不 像 常规 模型 ， 分 别 如 图 2. 3b 和 图 2. 3c Bros. 
dom0 报 文 转发 的 性 能 接近 于 非 虚拟 化 设备 的 性 能 。 但 是 ， 报 文 处 理 特征 失去 了 灵 
活性 ， 因 为 dom 不 像 VM 那样 是 以 逐 跳 方式 处 理 报 文 的 。 

OpenFlow 并 不 假定 在 转发 单元 上 存在 虚拟 化 数据 平面 ， 结 果 是 ， 在 所 有 网 络 
间 遵 循 一 个 共享 数据 平面 的 模型 。 那 么 可 预料 到 ，OpenFlow 报 文 转发 性 能 是 非常 
类 似 于 原生 Linux 的 。 但 是 ，OpenFlow 对 以 前 没有 配置 的 流 显示 出 一 项 劣势 。 如 前 
面 提 到 的 ， 当 一 条 报 文 到 达 一 台 OpenFlow 交换 机 时 ， 如 果 该 流 没 有 匹配 转发 表 上 
的 任何 表 项 ， 该 报 文 就 被 转发 到 控制 器 。 控 制 器 不 得 不 首先 配置 用 来 转发 报 文 的 所 
有 OpenFlow 交换 机 。 当 转发 每 条 流 的 第 一 条 报 文 时 ， 这 种 机 制 会 引入 一 个 相当 大 
的 时 延 。 如 果 持 续 地 发 起 新 的 流 ， 则 OpenFlow 性 能 就 受到 影响 。 

3. 扩展 性 

扩展 性 是 虚拟 化 技术 的 另 一 个 重要 问题 ， 目 标 是 提供 多 个 并 行 网 络 。 虽 然 相 比 
通过 domU 的 Xen, JÆ OpenFlow 具有 较 佳 的 报 文 转发 性 能 ， 但 在 网 络 扩展 性 方 
面 ，Xen 是 更 有 前 景 的 ， 其 中 假定 考虑 的 参数 为 联网 单元 数 。 首 先 ，OpenFlow 假 
定 所 有 节点 在 相同 级 别 上 都 运行 一 个 层 2 协议 。 因 此 ， 如 果 一 个 节点 发 送 一 条 地 址 
解析 协议 (ARP) 请 求 ， 网 络 中 的 所 有 节点 都 侦 听 该 请 求 。 迄 今 为 止 ，OpenFlow 
没有 在 网 络 中 提供 创建 多 个 隔离 域 的 支持 。 结 果 是 ， 当 前 OpenFlow 解决 方案 受 限 
于 一 个 局 域 网 或 一 个 城 域 网 。Xen 架构 依据 网 络 节点 可 运行 层 3 协议 的 思想 。 因 
此 ， 网 络 节点 作为 虚拟 路 由 器 运作 ， 并 建立 网 络 域 ， 这 种 域 是 以 层次 方式 组 织 的 。 
这 种 结构 兼容 于 当前 网 络 模型 ， 也 是 可 扩展 的 。 

HK, OpenFlow 基于 一 个 中 心 式 控制 器 ， 它 配置 网 元 。 因 为 控制 平面 是 中 心 
式 的 ， 且 每 条 流 的 第 一 条 报 文 必 须 由 控制 器 转发 和 处 理 ， 所 以 一 个 OpenFlow 网 络 
的 规模 受 限 于 控制 器 的 处 理 能 力 和 链 路 容量 。 迄 今 为 止 ，OpenFlow 没有 为 在 相同 
虚拟 网 络 中 不 同 控 制 器 的 支持 方面 提供 原生 解决 方案 。 同 样 ，Xen 模型 给 出 一 种 更 
好 的 方法 ， 原 因 是 它 基 于 一 种 去 中 心 式 控制 平面 。 虽然 去 中 心 式 算法 会 遇 到 慢 收 全 
且 在 正确 实现 方面 经 常 是 比较 困难 的 ， 但 当 扩 展 性 是 一 个 问题 时 ， 它 们 是 比较 合 
适 的 。 

扩展 性 也 与 虚拟 路 由 器 数 有 关 ， 这 些 路 由 器 可 运行 在 相同 物理 节点 之 上 。 未 来 
互联 网 需求 仍然 是 一 个 开放 问题 ， 且 新 的 架构 设计 不 应 该 限制 运行 在 可 用 物理 基础 
设施 之 上 虚拟 网 络 的 数量 。 就 这 方面 而 言 Xen 方法 是 不 太 灵 活 的 ， 原 因 是 虚拟 网 
元 是 一 个 VM， 相 比 一 个 OpenFlow 交换 机 中 的 一 条 简单 流 ， 它 要 求 更 多 的 硬件 资 
源 〈 如 处 理 能 力 和 内 存 利用 率 ) TE Xen 中 的 语 境 切 换 和 数据 路 径 比 OpenFlow 中 
要 复杂 得 多 。Xen 中 虚拟 网 络 数量 受 限于 网 元 的 硬件 。 实 际 上 ， 即 使 一 个 网 元 在 一 
个 给 定时 刻 没 有 流量 ， 它 也 要 占据 物理 网 元 中 国定 量 的 磁盘 和 内 存 ， 这 可 能 阻碍 另 
一 个 虚拟 网 元 的 实例 化 。OpenFlow 为 在 一 个 物理 网 元 之 上 一 个 虚拟 网 络 分 片 的 实 
例 化 ， 提 供 一 个 更 加 灵活 的 基础 设施 。 因 为 转发 网 元 仅 有 一 个 共享 的 数据 平面 ， 其 
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资源 不 会 被 不 同 虚 拟 操作 系统 或 为 特定 虚拟 网 络 维护 定量 的 内 存 和 磁盘 所 消耗 。 

因为 OpenFlow 中 虚拟 网 络 的 概念 是 由 具有 相同 特征 集 的 流 集合 给 定 的 ， 所 以 
OpenFlow 可 支持 并 行 运 行 的 多 个 虚拟 网 络 。 相 反 ，Xen 受 限于 可 在 网 元 硬件 上 复 
用 的 VM 数量 。 值 得 指出 的 是 ， 如 果 dom0 用 作 一 个 共享 的 数据 平面 ， 则 Xen 的 扩 
展 性 可 得 以 改进 。 

4. 基本 虚拟 网 络 管理 原 语 和 工具 

虚拟 联网 管理 原 语 取决 于 如 下 特定 工具 : 创建 和 删除 虚拟 网 络 ， 在 物理 基础 设 
施 之 上 重新 分 配 虚拟 网 络 ， 重 新 分 配 节点 资源 ， 以 及 监测 虚拟 网 络 。Xen 和 Open- 
Flow 给 出 实现 上 述 原 语 的 不 同方 法 ， 因 为 它们 基于 不 同 模型 ， 且 它们 有 实现 一 个 
虚拟 网 络 的 不 同方 法 。 

管理 虚拟 网 络 会 产生 在 所 有 虚拟 网 络 管理 器 之 上 以 层次 方式 出 现 的 一 个 实体 ， 
在 此 之 后 称 为 裁决 器 (arbiter) 。 这 是 一 个 重要 的 假定 ， 原 因 是 如 果 没 有 裁决 器 ， 
则 每 个 网 络 将 尝试 消耗 所 有 可 用 资源 ， 干 扰 其 他 虚拟 网 络 的 运作 。 确 实 ， 一 个 虚拟 
网 络 管理 框架 也 意味 着 存在 隔离 工具 ， 裁 决 器 用 之 为 每 个 网 络 保障 最 小 量 的 资源 。 
在 Feamster “ [FEA 07] 的 文章 中 ,讨论 了 存在 一 个 裁决 器 ， 在 共存 虚拟 网 络 间 
决定 可 用 资源 的 分 割 。 他 们 论证 说 ， 互 联网 服务 提供 商 (ISP) 应 该 独立 于 基础 设 
施 提供 商 ， 根 据 他 们 的 说 法 ， 基 础 设施 提供 商 应 该 负责 虚拟 网 络 间 的 资源 共享 。 

存在 一 个 裁决 器 提出 了 有 关 安 全 的 一 个 问题 。 因 为 有 这 样 一 个 实体 ， 它 控制 整 
个 网 络 ， 所 以 这 个 实体 和 虚拟 /物理 节点 之 间 的 通信 必须 是 安全 的 。 另 外 ， 裁 决 器 
不 能 受到 恶意 网 络 节点 的 影响 ， 该 节点 想 将 资源 从 一 个 网 络 转移 到 另 一 个 网 络 。 在 
OpenFlow 中 ， 裁 决 器 自然 地 定义 为 网 络 控制 器 。 如 果 该 架构 假定 为 不 同 网 络 使 用 
一 个 不 同 控制 器 ， 那 么 这 个 裁决 器 就 由 FlowVisor [SHE 10] 给 出 。 每 个 网 络 节点 
和 控制 器 /FlowVisor 之 间 的 安全 信道 是 在 OpenFlow 标准 中 定义 的 。 在 标准 中 没有 
处 理 访问 控制 和 信任 问题 ， 但 必须 加 以 实现 。Xen 不 提供 任何 类 型 的 裁决 器 来 管理 
虚拟 网 络 ， 因 为 它 不 是 为 这 种 特定 的 用 途 开发 的 。 

假定 存在 一 个 裁决 器 ， 则 可 讨论 在 Xen 和 OpenFlow 中 如 何 针 对 管理 实现 基本 
的 虚拟 联网 操作 。 在 Xen 中 ， 将 一 个 网 络 定义 为 一 个 虚拟 路 由 器 集合 。 因 此 ， 创 
建 和 删除 一 个 网 络 ， 则 分 别 意味 着 在 相同 物理 基础 设施 之 上 创建 和 删除 虚拟 路 由 
fü. Xen 为 本 地 实例 化 VM 提供 机 制 ， 其 中 假定 VM 映像 已 经 存储 在 物理 节点 中 。 
因此 ， 为 实例 化 一 个 虚拟 网 络 ， 裁 决 器 必须 首先 选择 将 使 用 的 虚拟 基础 设施 ， 将 虚 
拟 节点 的 映像 传递 到 每 个 物理 节点 ， 之 后 启动 VM。 在 OpenFlow 中 ， 一 个 网 络 的 
实例 化 没有 意味 着 要 对 转发 节点 做 出 改变 。 实 际 上 ， 为 创建 一 个 新 网 络 ， 就 要 求 在 
控制 器 中 实例 化 一 个 应 用 集合 ， 或 在 使 用 FlowVisor 的 情形 中 ， 要 求实 例 化 一 个 新 
的 控制 器 。 依 据 到 达 网 络 的 报 文 ， 将 应 需 地 创建 新 的 网 络 流 。 物 理 资源 (将 由 每 
个 网 络 使 用 ) 的 选择 是 以 在 线 方式 ， 或 在 使 用 FlowVisor 的 情形 中 在 网 络 实例 化 的 
时 刻 ， 由 控制 器 确定 。Xen 和 OpenFlow 都 没有 为 在 相同 物理 基础 设施 之 上 每 个 共 
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存 的 虚拟 网 络 选择 最 佳 配 置 提供 算法 。 

另 一 项 重要 操作 是 应 需 虚 拟 网 络 调节 [PIS 10，CLA 05], ， 这 意味 着 ， 如 果 一 
个 新 网 络 刚 被 实例 化 或 如 果 一 个 运行 的 虚拟 网 络 的 流量 发 生 了 变化 ， 要 重新 分 配 虚 
拟 网 络 。 在 Xen 中 重新 分 配 一 个 网 络 可 通过 路 由 器 迁移 、 实 例 化 和 删除 加 以 实施 。 
如 果 希 望 维护 相同 的 虚拟 拓扑 (这 可 能 是 为 避免 对 虚拟 网 络 功 能 影响 的 一 个 重要 
特点 ) ， 则 迁移 是 一 项 必 备 的 解决 方案 ， 原 因 是 在 不 改变 虚拟 拓扑 的 条 件 下 ， 虚 拟 
路 由 器 从 一 个 物理 路 由 器 被 转移 到 另 一 台 物 理 路 由 器 。 这 样 一 个 规程 的 约束 ， 是 为 
了 确保 新 的 物理 路 由 器 至 少 与 原 路 由 器 具有 相同 数量 的 网 络 接口 。 这 就 使 模拟 一 跳 
邻居 关系 的 隧道 的 构建 成 为 必需 的 ， 这 样 的 邻居 关系 在 物理 基础 设施 中 是 不 存在 
的 。 另 外 ， 这 可 诱发 报 文 丢失 ， 除 非 使 用 一 些 特定 的 机 制 [ WAN 08]。 因 此 ， 在 
Xen 中 实例 化 和 重新 分 配 网 络 是 具有 挑战 性 的 操作 。 但 是 ，OpenFlow 为 重新 分 配 
网 络 资源 提供 一 个 比较 方便 的 基础 设施 ， 因 为 它 仅 在 每 个 参与 虚拟 网 络 节点 上 要 求 
流 表 重新 配置 。 对 于 控制 器 这 是 一 项 简单 操作 ， 原 因 是 它 知 道 物理 设备 处 于 哪里 以 
及 它们 是 如 何 连接 的 。 在 OpenFlow 中 ， 网 络 重新 分 配 甚至 更 加 简单 ， 原 因 是 存在 
中 心 式 控制 平面 ， 它 允许 单个 单元 维护 整个 拓扑 并 作用 于 所 有 节点 。Xen 和 Open- 
Flow 中 网 络 重新 分 配 的 一 个 例子 如 图 2. 11 所 示 。 

Xen 基于 物理 节点 虚拟 化 ， 导 致 机 器 部 件 的 资源 共享 ， 如 内 存 、 磁 盘 、L0O Vi 
问 和 中 央 处 理 单元 (CPU ) 。 实 际 上 ，Xen 提供 管理 资源 共享 的 工具 ， 可 被 用 来 分 
配 资源 ， 是 否 为 一 些 网 络 提供 特权 。OpenFlow 提供 物理 节点 的 较 少 控制 ， 原 因 是 
网 络 节点 和 控制 器 之 间 的 接口 是 严格 的 。 因 此 ,在 OpenFlow 中 每 个 网 络 节点 物理 
资源 的 控制 受 限 于 控制 节点 和 控制 器 间 监 测 消息 的 频率 ， 并 受 限 于 每 个 网 络 所 用 流 
表 的 尺寸 。 另 外 ， 因 为 控制 /FlowVisor 可 测量 每 条 流 的 吞吐 量 ， 为 控制 网 络 带宽 而 
丢弃 一 个 特定 网 络 的 流 也 是 可 能 的 。 但 是 ， 这 些 机 制 没 有 像 Xen 在 控制 每 个 虚拟 
网 络 资源 那样 提供 相同 的 精度 。 


2.1.4 性 能 评估 


在 如 图 2. 12 所 示 的 由 三 台 机 器 组 成 的 一 个 测试 床 中 ,评估 了 Xen 和 OpenFlow 
的 性 能 。 流 量 生 成 器 (TG) 通过 流量 转发 器 (TE) 发 送 目 的 地 为 流量 接收 方 
(TR) 的 报 文 ，TF 模拟 一 个 虚拟 网 元 。TF 机 器 是 一 台 HP Proliant DL380 G5 服务 
器 ， 配 备 有 两 个 Intel Xeon E5440 2. 83GHz 处 理 器 和 10GB 随机 访问 内 存 (RAM), 
每 个 处 理 器 有 四 个 核心 ， 因 此 ，TF 机 器 同时 可 运行 8 个 逻辑 CPU。 在 不 明确 提 到 
AY, TF 机 器 也 称 作 转发 器 ， 是 采用 一 个 逻辑 CPU 设置 建立 的 。TF 机 器 使 用 一 个 
PCI 快速 x4 Intel FJK ET 双 端 口服 务 器 适配器 的 两 个 网 络 接口 。TC 和 TR 也 分 别 
称 作 产生 器 和 接收 器 ， 是 装备 有 一 个 Intel DP55KG 主板 和 一 个 Intel Core 17 860 
2. 80GHz 处 理 器 的 通用 机 器 。TG 和 TR 机 器 是 通过 它们 板 上 的 Intel PRO/1000 PCI 
(快速 网 络 接口 ) 直接 连接 到 TF 的 。 
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(1) 从 E 到 F 迁 移 虚拟 路 由 器 
(2) 创建 一 条 从 F 到 D 的 隧道 


b) 
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a) 






控制 器 (1)(2) 


(1) 在 节点 D、G、F 和 A 中 添加 一 条 流 
(2) 删除 节点 A、E、D 中 的 陈旧 流 


c) 


图 2.11 使 用 Xen 和 OpenFlow 的 网 络 重新 分 配 例子 
a) 原配 置 b) 使 用 Xen 迁移 网 络 1 c) (E OpenFlow 迁移 网 络 1 


流量 生成 器 
机 器 (TG) 


图 2. 12 





流量 转发 器 流量 接收 方 
机 器 (TF) 机 器 (TR) 


在 性 能 评估 中 使 用 的 试验 场景 


在 下 面 的 试验 中 ， 使 用 原生 Linux, Xen 和 OpenFlow 评估 报 文 转发 性 能 。 使 用 
原生 Linux ， 转 发 器 运行 一 个 Debian Linux 内 核 版 本 2. 6. 26。 这 个 内 核 也 用 于 Open- 
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Flow 试验 中 ， 带 有 一 个 附加 的 内 核 模 块 支持 OpenFlow。 使 用 Xen 时 ，dom0 和 
domUs 都 运行 带 有 一 个 半 虚 拟 化 内 核 版 本 2. 6. 26 的 Debian Linux 系统 。 

1. Xen, OpenFlow 和 原生 Linux 场景 

在 Xen 场景 中 ， 测 试 三 个 不 同 网 络 配置 。 在 其 中 的 两 种 配置 中 ，Xen 运行 在 网 
桥 模式 ; 在 称 作 XenVM 的 第 一 种 配置 中 ，VM 作为 完备 的 虚拟 路 由 器 (在 VM 上 
有 数据 平面 和 控制 平面 ) ， 而 在 称 作 Xen- 网 桥 的 第 二 种 配置 中 ，VM 包含 控制 平 
面 ， 共 享 的 数据 平面 运行 在 dom0 中 。 预 计 Xen- 网 桥 配 置 可 取得 较 佳 的 报 文 转发 性 
能 ， 即 使 与 XenVM 配置 相 比 ， 它 降低 报 文 处 理 灵 活性 时 也 是 如 此 。 最 后 ， 在 第 三 
种 配置 中 ，Xen 运行 在 路 由 器 模式 ， 且 在 这 种 情形 中 ， 它 仪 评估 通过 dom0 的 转发 
报 文 性 能 。 这 种 配置 被 称 作 Xen- 路 由 器 。 在 所 有 配置 中 使 用 Xen hypervisor 版 
本 3.4.2。 

在 OpenFlow 场景 中 ，TF 作为 一 台 OpenFlow 交换 机 。 一 台 OpenFlow 控制 器 使 
用 第 三 个 网 络 接口 连接 到 TF。TF 运行 OpenFlow 参考 系统 版 本 0. 8. 9。 控 制 器 是 一 
台 IBM T42 笔记 本 ， 运 行 一 个 Debian Linux 系统 ， 其 上 运行 NOX 版 本 0.6.0 [GUD 
08]. {EH pyswitch 应 用 ， 它 存在 于 NOX 中 ， 可 在 OpenFlow 交换 机 中 创建 流 规则 。 

在 原生 Linux 场景 中 ,测试 了 三 个 不 同 的 报 文 转发 配置 。 在 第 一 个 配置 中 ， 原 
生 一 路 由 器 ， 转 发 器 作为 一 台 路 由 器 ， 并 以 静态 路 由 运行 标准 的 Linux 内 核 路 由 机 
制 。 原 生 一 路 由 器 配置 使 用 Linux 内 核 网 桥 ， 它 在 一 台 PC 上 实现 一 台 基 于 软件 的 
交换 机 。 因 为 层 2 和 层 3 解决 方案 要 与 OpenFlow 和 Xen 进行 比较 ， 所 以 需要 给 出 
原生 Linux 在 网 桥 和 路 由 器 模式 下 时 这 些 解 决 方案 的 性 能 ， 以 便 评 估 虚 拟 化 对 报 文 
转发 的 影响 。 但 是 ， 在 网 桥 模式 中 的 Xen 具有 与 带 有 网 桥 的 原生 Linux 的 一 个 不 同 
配置 。 这 是 因为 Linux 网 桥 在 两 个 物理 接口 直接 完成 层 2 转发 ， 而 Xen 则 要 进行 直 
到 层 3 的 转发 。 为 进行 网 桥 模式 的 Xen 和 原生 Linux 之 间 的 公平 比较 ， 为 原生 
Linux 提供 一 种 混合 模式 〈 网 桥 和 路 由 器 ) ， 这 被 称 作 原生 一 混合 模式 。 在 这 种 混 
合 模式 中 ， 转 发 器 物理 网 络 接口 被 连接 到 不 同 软件 网 桥 ， 一 个 核心 路 由 机 制 在 两 个 
网 桥 之 间 转 发 报 文 。 这 种 配置 在 原生 Linux 中 模拟 在 Xen 网 桥 模式 中 完成 的 功能 ， 
如 图 2. 10a 所 示 。 

2. 试验 结果 

采用 64B (最 小 ) 和 1512B (最 大 ) 帧 ， 实 施 报 文 转发 速率 分 析 。 具 有 64B 的 
帧 产生 高 的 报 文 速率 ， 并 强制 转发 器 中 的 高 报 文 处 理 速度 ， 而 1512B 帧 使 1Gbit/s 物 
理 链 路 饱和 。 

图 2. 13a 给 出 采用 原生 Linux 得 到 的 转发 速率 ， 这 是 Xen 和 OpenFlow 性 能 的 一 
个 上 限 。 也 画 出 点 到 点 报 文 速率 ,这 是 当 TG 和 TR 直接 连接 时 得 到 的 。 所 得 到 的 
低 于 点 到 点 报 文 速率 的 任何 速率 都 是 TG 和 TR 之 间 丢 失 报 文 的 后 果 。 结 果 表 明 ， 
在 路 由 器 模式 中 的 原生 Linux 与 直接 点 到 点 场景 中 的 性 能 一 样 。 这 由 内 核 路 由 机 制 
的 低 复杂 性 所 解释 。 但 是 ， 在 网 桥 模 式 中 ， 原 生 Linux 的 性 能 比 路 由 需 模 式 的 要 
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差 。 依 据 Mateo [MAT 09], ， 这 个 结果 可 能 是 由 于 Linux 网 桥 实 现 导 致 的 ， 为 支持 
高 报 文 速率 ， 该 实现 没有 做 优化 。 最 后 ， 观 察 到 混合 模式 的 原生 Linux 给 出 最 差 的 
转发 性 能 。 这 是 预料 内 的 ， 原 因 是 前 面 提 到 的 网 桥 模式 限制 以 及 在 转发 器 〈TF ) 
中 将 报 文 从 网 桥 转发 到 IP 层 所 需要 的 递增 处 理 开销 所 导致 的 。 
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图 2.13 64B 帧 的 报 文 速率 : 原生 Linux, Xen 和 OpenFlow 
a) 原生 Linux b) Xen c) OpenFlow 


Xen 转发 速率 结果 如 图 2. 13b 所 示 。 首 先 ， 分 析 了 domO 转发 报 文 的 场景 。 在 
这 个 场景 中 ,没有 VM 在 运行 ， 虽 然 如 果 VM 处 于 打开 但 没有 转发 报 文 时 ， 人 们 期 
望 相同 的 结果 [EGI 07] 。 在 这 个 试验 中 ， 分 析 了 Xen 网 桥 和 路 由 器 模式 。Xen- 网 
桥 使 用 Linux 网 桥 互 联 各 个 VM， 但 它 也 遇 到 原生 Linux 处 于 网 桥 模 式 时 的 相同 限 
制 ， 原 因 是 网 桥 实 现 是 相同 的 。 另 外 ，Xen- 网 桥 从 网 桥 向 IP 层 转发 报 文 ， 这 和 混 
合 模式 中 一 样 ， 与 这 种 模式 中 所 需 hypervisor 调用 组 合 使 用 。 和 预料 的 一 样 ，Xen- 网 
桥 的 性 能 比 所 有 原生 Linux 转发 方案 要 差 。 另 外 ，Xen- 路 由 器 的 性 能 比 Xen- 网 桥 的 
要 好 ， 因 为 当 dom0 转发 报 文 时 ， 没 有 使 用 Linux 网 桥 ， 也 没有 调用 Xen hypervisor, 
不 过 ，Xen- 路 由 器 仍然 比 原生 一 路 由 器 的 性 能 要 差 。 在 大 约 1.2Mp/s 负载 时 ， 
转发 速率 快速 减少 。 对 于 Xen- 路 由 器 和 在 下 面 采用 VM 转发 的 试验 中 ， 也 观察 到 
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这 种 行为 。 这 种 性 能 损伤 是 与 Xen 实现 有 关 的 ， 并 需要 进一步 的 调查 研究 。 

也 分 析 了 一 个 VM 使 用 Xen 网 桥 模 式 转 发 流量 的 一 个 场景 ， 这 是 默认 Xen 网 络 
配置 。 在 XenVM-1 H, VM 和 dom0 共享 相同 的 CPU 核 。 相 比 于 前 面 的 结果 ， 这 个 
结果 给 出 性 能 方面 的 一 次 降低 ， 在 前 者 中 dom0 是 转发 单元 。 这 种 不 佳 的 性 能 似乎 
是 CPU 资源 高 度 竞 争 的 后 果 ， 因 为 单个 CPU 核 是 在 两 个 域 之 间 共 享 的 。 为 消除 对 
CPU 资源 的 竞争 ， 完 成 了 采用 XenVM-2 配置 的 一 项 试验 ， 如 图 2. 13b 所 示 ， 其 中 
为 每 个 域 分 配 一 个 独占 的 核 。 采 用 XenVM-2 试验 得 到 的 性 能 要 好 于 采用 XenVM-1 
试验 ， 但 它 仍然 低 于 dom0 结果 。 这 可 由 VM 报 文 转发 所 涉及 的 高 度 复杂 性 所 解释 。 
当 流 量 由 VM 转发 时 ， 在 到 达 TR 之 前 一 定 会 经 过 一 条 比较 复杂 的 路 径 。 在 接收 报 
文 时 ， 是 通过 到 dom0 内 存 的 直接 内 存 访问 (DMA) 进行 传递 的 。 域 0 之 后 将 报 文 
解 复 用 到 其 目的 地 ， 得 到 与 接收 VM 相关 联 的 一 个 空闲 内 存 页 ， 将 空闲 页 与 包含 报 
文 的 页 交换 ， 之 后 通知 VM。 为 发 送 一 条 报 文 ， 一 个 VM 必须 发 出 一 条 传输 请 求 ， 
带 有 到 内 存 区 (其 中 报 文 处 于 Xen VORP) 的 一 个 索引 指针 。 域 0 之 后 轮 询 LO 
环 ， 并 且 当 它 接 收 到 传输 请 求 时 ， 它 将 索引 指针 映射 到 物理 页 地 址 ， 之 后 将 之 发 送 
到 物理 接口 [CHI 07]。 这 种 增加 的 复杂 性 部 分 地 要 求 VM 被 用 来 转发 报 文 的 两 幅 
图 中 得 到 的 低 报 文 速 率 负责 。 

图 2. 13c 表明 ,在 路 由 器 模式 中 ，OpenFlow 的 性 能 接近 于 原生 Linux 的 。 另 
外 ，OpenFlow 和 XenVM 之 间 的 比较 ， 显示 出 灵活 性 和 性 能 之 间 的 折 中 。 使 用 
XenVM， 则 取得 更 大 的 灵活 性 是 可 能 的 ， 因 为 数据 平面 和 控制 平面 完全 处 在 每 个 
虚拟 网 络 管理 员 的 控制 之 下 。 但 是 ， 在 OpenFlow 中 ， 灵 活性 是 较 低 的 ， 原因 是 数 
据 平面 是 在 所 有 虚拟 网 络 间 共 享 的 。 另 外 ， 因 为 低 的 处 理 额 外 负担 ，OpenFlow 的 
性 能 要 优 于 XenXM。 如 果 数 据 平面 被 迁移 到 dom0 M) Xen 性 能 可 得 到 改进 ， 这 在 
Xen- 路 由 器 和 Xen- 网 桥 结果 中 已 经 看 到 。 但 是 ， 在 这 些 情 形 中 ， 定 制 数据 平面 的 
灵活 性 降低 了 。 

也 采用 1470B 数据 报 文 实施 了 报 文 转发 试验 ， 如 图 2. 14 所 示 。 对 于 大 型 报 文 ， 
除了 XenVM-1 和 XenVM-2 外 ， 所 有 转发 解决 方案 都 与 原生 一 路 由 器 场景 具有 相同 
的 行为 。 因 此 , ETF 中 没有 报 文 丢失 ， 在 这 种 情形 中 的 瓶颈 是 1Gbit/s 链 路 。 不 
过 ， 对 于 一 个 VM 与 dom0 共享 相同 内 核 的 XenVM-1， 得 到 的 报 文 速 率 是 较 低 的 。 
在 XenVM-2 试验 中 ， 一 个 独占 的 CPU 核 被 分 配给 每 个 域 ， 其 行为 类 似 于 原生 一 路 
由 器 。 由 此 ， 在 XenVM-1 结果 中 的 性 能 减少 是 由 各 域 之 间 对 CPU 资源 的 高 竞争 导 
致 的 。 

接 下 来 ， 给 出 每 种 类 型 虚拟 网 元 对 流量 延迟 影响 的 一 个 分 析 。 之 后 介绍 了 由 网 
元 转发 的 不 同 速率 的 背景 流量 。 对 于 那些 速率 中 的 每 个 速率 ， 一 条 互联 网 控制 消息 
协议 (ICMP) echo 请 求 从 生成 器 发 送 到 接收 方 ， 为 的 是 依据 所 产生 的 背景 流量 ， 
评估 往返 时 间 (RTT) AEH. TU ICMP 消息 中 的 抖动 ， 深入 研究 了 网 元 在 
网 络 中 是 插入 一 个 固定 时 延 还 是 一 个 变化 的 时 延 ， 这 可 能 影响 实时 应 用 。 
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图 2.14 1512B 帧 的 报 文 速 率 : 原生 Linux, Xen 和 OpenFlow 
a) 原生 Linux b) Xen c) OpenFlow 


图 2. 15a 和 图 2. 15b 分 别 给 出 RTT 和 抖动 的 结果 。 随 着 所 产生 流量 的 增加 ， 仅 
针对 流量 通过 VM (PRE XenVM-1) 的 配置 ，ICMP 消息 所 测 得 到 的 RTT 和 抖动 是 
增加 的 。 在 最 差 场景 中 ，XenVM-1 和 原生 Linux 试验 之 间 RTT 8025355] 1. 5ms, 1$ 
景 流量 是 SOOMbit/s, OpenFlow 的 RTT 和 拌 动 与 原生 Linux 的 RTT 和 拌 动 ， 具 有 相 
同 的 量 级 。 不 管 XenVM-1 和 其 他 配置 之 间 的 时 延 差 是 什么 样 的 ，XenVMs 在 没有 
对 延迟 产生 显著 影响 的 条 件 下 ， 可 处 理 网 络 流量 。 因 为 RTT 总 是 小 于 1.7ms， 即 使 
在 最 差 情 形 中 也 是 如 此 ， 所 以 运行 在 Xen 之 上 的 虚拟 路 由 器 不 会 显著 地 影响 实时 
应 用 ， 如 IP 上 的 话音 (VolP)， 在 不 中 断 通信 交互 性 的 情况 下 ， 它 可 容忍 高 达 
150ms 的 时 延 ， 即 使 考虑 多 跳 情 况 时 也 无 例外 [FAT 05], 

针对 多 个 网 络 和 每 个 网 络 多 条 流 的 情况 ， 也 分 析 了 Xen 和 OpenFlow 虚拟 化 平 
台 的 行为 。 在 这 个 场景 中 ， 每 个 网 络 被 表示 为 ， 针 对 OpenFlow 是 TG 和 TR 之 间 的 
一 条 报 文 流 ， 针 对 Xen 是 一 个 VM。 报 文 尺寸 和 所 产生 报 文 速率 分 别 固定 在 64B 和 
200kp/s。 如 果 有 一 条 以 上 的 并 行 流 ， 则 聚集 的 所 产生 流量 仍然 是 一 样 的 。 例 如 ， 
如 果 采 用 四 条 并 行 流 执行 试验 ， 则 每 条 流 对 应 于 50kp/s 的 报 文 速率 ， 产 生 200kp/s 
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图 2.15 128B 报 文 的 网 络 时 延 和 抖动 
a) 往返 时 间 (RTT) b) 抖动 


的 一 个 聚集 速率 。 图 2. 16a 给 出 作为 虚拟 网 络 数 的 一 个 函数 的 聚集 报 文 速率 ， 其 中 
每 个 网 络 有 一 条 流 。OpenFlow 作为 一 个 软件 交换 机 ， 除 了 这 样 的 事实 ， 即 流 的 第 
一 条 报 文 要 被 发 送 到 OpenFlow 控制 器 。 得 到 的 性 能 非常 类 似 于 运行 于 原生 Linux 
之 上 的 软件 网 桥 ， 它 维持 接近 于 所 产生 200kp/s 速率 的 接收 速率 。 虽 然 Xen dom0 
必须 使 其 中 断 首先 由 hypervisor 加 以 处 理 ， 但 Xen- 网 桥 的 性 能 几乎 与 网 桥 模 式 的 原 
^E Linux 一 样 好 。 另 外 ， 在 多 个 VM 同时 转发 流量 (XenVM-1 配置 ) 的 情形 中 ， 
随 着 并 行 VM 数 增加 ， 性 能 降低 。 这 个 性 能 降低 主要 是 因为 CPU 语 境 切换 ， 它 必 
须 在 逐渐 增加 的 机 器 数 间 复 用 处 理 器 ， 每 台 机 器 乐意 转发 其 自己 的 流 。 

图 2. 16b 给 出 聚集 的 报 文 速率 ， 它 作为 流 数 的 一 个 函数 ， 这 里 考虑 的 是 单个 虚 
拟 网 络 。 和 预料 的 一 样 OpenFlow 和 Xen- 网 桥 给 出 图 2. 16a 中 一 样 的 行为 ， 原 因 
是 两 者 都 有 相同 的 数据 平面 ， 结 果 是 ， 在 带 有 多 条 流 的 一 个 虚拟 网 络 或 每 个 虚拟 网 
络 有 一 条 流 的 多 个 网 络 间 没 有 差异 。 另 外 ， 当 流量 通过 VM (XenVM-1 BUR) f 
发 时 ， 在 到 达 TR 之 前 ， 流 量 一 定 要 经 过 一 条 复杂 的 路 径 ， 这 在 前 面 的 结果 中 可 见 
到 。 为 验证 复杂 路 径 是 否 为 唯一 的 瓶颈 ， 可 在 一 个 配置 中 重复 测试 ， 该 配置 中 VM 
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图 2.16 不 同 虚拟 网 络 数 的 聚集 报 文 速率 
a) 网 络 数 的 影响 b) 流 数 的 影响 
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没有 与 dom0 共享 相同 的 物理 核 ， 参 见 XenVM-2。 在 这 个 配置 中 ， 性 能 增加 达到 
50kp/s， 表 明 处 理 能 力 是 网 络 虚拟 化 中 的 一 个 重要 问题 。 

为 分 析 CPU 分 配对 VM 转发 的 影响 ,实施 了 一 项 CPU 变化 试验 ， 其 中 报 文 从 
TG 发 送 到 TR， 以 固定 速率 200kp/s 通过 各 个 YM， 而 分 配给 dom0 的 专用 CPU 核 
数 是 变化 的 。 使 用 200kp/s 速率 ， 是 因为 接近 这 个 速率 ， 就 可 能 在 1- VM 场景 中 得 
到 最 佳 性 能 。 依 据 前 面 的 结果 ， 当 dom0 和 VM 中 每 个 都 有 一 个 专用 CPU 核 时 ， 转 
发 性 能 增加 。 这 项 测试 目标 是 补充 那些 
结果 ， 方 法 是 当 dom0 独占 CPU 核 数 增 
加 且 有 多 个 VM 转发 报 文 时 ， 分 析 转 发 
性 能 。 当 使 用 一 个 以 上 的 VM Hf, 
200kp/s 的 聚集 速率 是 均等 地 在 VM 间 
分 配 的 。 图 2. 17 给 出 一 个 场景 中 的 聚集 
接收 速率 ， 其 中 每 个 VM 有 单个 核 ， 且 
专用 于 dom0 的 CPU RA n 是 变化 的 。 


接收 的 报 文 速率 /(kp/s) 
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料 的 一 样 ， 当 n = 1 时 ， 性 能 增加 ， 是 

因为 每 个 VM 分 配 一 个 专用 的 CPU 核 ， 且 结果 是 ， 就 有 更 多 时 间 执 行 它 的 任务 。 
另外 ， 当 dom0 接收 一 个 以 上 的 专用 CPU 4% (Bl nz2) 时 ，dom0 有 单个 专用 CPU 
核 ， 性 能 就 差 ， 甚 至 当 多 个 VM 转发 报 文 时 也 是 这 样 。 这 些 结果 表明 ，. 当 每 个 虚拟 
路 由 器 有 两 个 接口 时 ， 由 dom0 执行 的 网 络 任务 是 单线 程 的 ， 且 这 些 任务 在 一 个 多 
核 环境 中 执行 得 不 好 。 


2.2 Xen 原型 


可 开发 一 个 Xen 原型 ， 如 电信 和 自动 化 集团 (Grupo de Teleinformática e Auto- 
macéo) (GTA) 实验 室 [PIS 11], ， 对 新 接口 进行 试验 。 本 节 描 述 与 一 个 Xen 原型 
有 关 的 接口 ， 是 依据 图 2. 18 中 描述 的 架构 开发 的 。 这 个 引导 平面 向 虚拟 机 服务 器 
(VMS) 请 求 服 务 (2. 2. 1 节 ) 。 这 些 服务 可 与 基础 设施 上 的 感知 或 动作 相关 。VMS 
实施 所 要 求 的 动作 ， 并 将 应 答 发 回 引导 平面 。 为 了 简化 引导 平面 的 实现 ， 由 VMS 
提供 的 接口 必须 是 良好 定义 的 和 平台 无 关 的 。 

可 开发 一 个 图 形 用 户 界面 (GUI) ， 这 有 助 于 一 个 Xen 的 运作 (2.2.3 5), x 
持 由 一 个 人 操作 管理 网 络 。 这 个 界面 可 替换 引导 平面 ， 并 可 访问 所 有 的 网 络 管理 
任务 。 
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图 2.18 Horizon Xen 原型 架构 


2.2.1 虚拟 机 服务 器 


VMS [ALV 12] 为 管理 虚拟 网 络 和 虚拟 路 由 器 提供 了 一 个 服务 集 。 为 匹配 特 
定 需 求 ， 这 个 系统 提供 了 应 需 虚 拟 路 由 器 。 在 接收 到 新 的 虚拟 网 络 的 请 求 时 ， 服 务 
器 创建 合适 数量 的 VM， 并 将 它们 部 署 到 物理 网 络 的 特定 节点 。 此 外 ， 这 个 服务 器 
可 参与 网 络 管理 活动 。 

该 服务 器 可 使 用 Web 服务 [W3C] 实现 ， 并 使 用 简单 对 象 访问 协议 (SOAP) 
[BOX 00] 对 服务 请 求 做 出 应 答 。Web 服务 器 可 以 是 Apache Tomcat [ APA 10]. 
这 种 方法 简化 了 VMS 的 异 构 客户 端的 生成 ， 并 降低 了 添加 新 特征 的 复杂 性 。 每 项 
服务 是 一 个 公共 方法 ， 建 模 为 称 作 VirtualMachineServer 的 一 个 类 。 

一 个 引导 平面 可 作用 于 网 络 ， 并 可 自治 地 决定 实施 一 些 改变 ， 见 未 来 互联 网 项 
目 中 所 建议 的 [HOR 10]。 例 如 ， 可 减少 一 个 过 载 物理 机 器 的 负载 ， 方 法 是 将 其 机 
器 中 的 一 个 机 器 迁移 到 另 一 个 物理 主机 。 在 这 种 情形 中 ， 引 导 平 面 使 用 SOAP 发 送 
一 条 命令 到 VMS ， 请 求 迁 移 一 个 VM。 之 后 VMS 使 用 Libvirt [LIB 10] (一 个 虚拟 
化 系统 管理 库 ) 实施 迁移 操作 。 

在 一 个 Xen 原型 中 的 可 用 服务 中 ， 存 在 对 管理 多 个 虚拟 网 络 是 重要 的 那些 服 
务 。 下 面 针 对 多 元 论 架构 ， 总 结 了 在 一 个 基于 Xen 的 测试 床 中 提供 的 典型 服务 ， 
并 描述 了 它们 的 主要 目标 。 

1) createVirtualMachine; 无 论 何 时 只 要 在 网 络 的 一 个 节点 上 必须 创建 新 的 VM 
时 ， 就 应 该 调用 这 项 服务 。 

2) createVirtualNetwork : 这 项 服务 在 网 络 的 一 些 物理 节点 上 创建 一 个 VM 集 。 
此 外 ，VM 服务 器 必须 将 所 创建 的 虚拟 网 络 接口 映射 到 指明 的 物理 网 络 接口 。 

3) destroyVirtualMachine: 这 项 服务 销毁 一 个 VM。 一 个 被 销毁 的 VM 在 未 来 是 
不 能 被 重用 的 。 

4) registerNodes: 最 初 ，VM 服务 器 是 没有 网 络 中 物理 主机 的 任何 信息 的 。 这 
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项 服务 可 被 用 来 将 现 有 节点 注册 到 网 络 中 ， 即 将 被 存储 在 VM 服务 器 处 的 VM 的 名 
字 、 公 开 密 钥 和 IP 地 址 。 

5) getPhysicalServerStatus: 这 项 服务 得 到 有 关 物 理 服务 器 的 基本 信息 的 一 个 列 
表 。 当 前 列表 包含 CPU 数 、 核 数 、RAM 内 存 大 小 、 空 闲 RAM 内 存量 、 主 机 名 以 
及 活跃 虚拟 域 的 数量 和 和 名字。 

6) getRegisteredNodes: 这 项 服务 返回 在 VM 机 器 上 注册 节点 的 一 个 列表 。 

7) getVirtualMachineStatus; 这 项 服务 返回 有 关 一 个 VM 的 基本 信息 的 一 个 列 
表 。 当 前 列表 包含 VM 的 名 字 、 当 前 RAM 内 存 大 小 、 可 被 使 用 的 总 RAM 内 存 、 虚 
拟 CPU (VCPU) 当前 数量 、VM 可 使 用 的 VCPU 最 大 数量 、 使 用 的 CPU 使 用 和 
VM 的 当前 状态 。 

8) migrateVirtualMachine: 这 项 服务 将 一 个 VM 从 一 台 物 理 主 机 迁移 到 同一 网 
络 中 的 另 一 台 物 理 机 器 。 

9) sanityTest: 这 项 服务 是 VM 服务 器 的 一 项 健康 度 测 试 。 客 户 端 将 一 个 字符 
串 发 送 给 服务 器 ， 服 务 器 发 回 相 同 的 字符 串 。 

10) shutdownVirtualMachine; 这 项 服务 关闭 YM。 在 这 种 情形 中 ,该 VM 可 在 
未 来 再 次 使 用 。 

11) topologyDiscover: 这 项 服务 在 物理 网 络 和 虚拟 网 络 上 创建 一 个 邻接 矩阵 。 
这 项 服务 有 一 个 约束 。 一 个 节点 必须 使 用 服务 registerNodes 注册 到 该 服务 器 ， 成 为 
物理 拓扑 的 组 成 部 分 ， 同 样 必须 将 其 VM 注册 到 虚拟 拓扑 上 。 

12) getVirtualMachineSchedulerParameters: 这 项 服务 查询 hypervisor， 查 询 CPU 
调度 器 、 一 个 VM 的 各 参数 。 对 于 信用 调度 器 ， 参 数 是 权重 和 上 限 。 

13) setVirtualMachineSchedulerParameters: 这 项 服务 为 Hypervisor 设置 一 个 VM 
的 CPU 调度 器 参数 。 对 于 信用 调度 器 ， 参 数 是 权重 和 上 限 。 

为 使 用 VMS 所 提供 的 能 力 ， 必 须 为 之 开发 客户 端 。VMS 的 一 个 客户 端 必须 创 
建 带 有 期 望 服务 及 其 参数 的 一 条 SOAP 消息 。 


2.2.2 虚拟 机 服务 器 客户 端 


为 简化 客户 端 开 发 ， 考 虑 到 每 个 添加 到 服务 器 的 新 服务 ， 可 提出 一 个 类 。 针 对 
每 个 新 类 ， 为 产生 消息 净 荷 的 一 个 方法 被 添加 到 客户 端 类 。 在 下 面 ， 可 能 的 消息 带 
有 其 相应 的 净 荷 (是 以 一 个 客户 端 类 实现 的 ) ， 这 些 消 息 与 VMS 交互 。 在 Horizon 
项 目 中 建议 提出 了 这 些 消息 [HOR 10], 

1) createVirtualMachinePayload; 这 种 方法 创建 一 个 净 荷 ， 来 请 求 创 建 一 个 
VM， 依 据 寄 居 新 VM 的 物理 机 器 的 名 字 ， 也 依据 这 个 新 VM 的 名 字 、 期 望 IP 地 址 
和 期 望 的 RAM 大 小 。 该 方法 返回 一 条 扩展 标记 语言 (XML) 消息 ， 表 示 为 类 
OMElement 的 一 个 对 象 ， 带 有 操作 结果 ， 可 能 是 一 次 成 功 或 失败 。 

2) createVirtualNetworkPayload; 这 个 方法 创建 一 个 净 荷 ， 来 请 求 创建 一 个 虚拟 
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网 络 ， 依 据 的 是 将 寄居 新 VM 的 物理 机 器 名 的 一 个 列表 、 带 有 新 VM 名 字 的 一 个 列 
表 、 带 有 期 望 IP 地 址 的 一 个 列表 、 带 有 期 望 RAM 内 存 大 小 的 一 个 列表 和 物理 网 络 
接口 (将 被 映射 到 在 VM 上 创建 的 新 的 虚拟 网 络 接口 ) 的 一 个 列表 。 该 方法 返回 
一 条 XML 消息 ， 表 示 为 类 OMElement 的 一 个 对 象 ， 带 有 操作 结果 ， 可 能 是 一 次 成 
功 或 失败 。 

3) destroyVirtualMachinePayload; 这 个 方法 创建 一 个 净 荷 ， 来 请 求 销毁 一 个 
VM， 依 据 的 是 寄居 该 VM 的 物理 机 器 名 字 和 VM 的 名 字 。 该 方法 返回 一 条 XML 消 
息 ， 表 示 为 类 OMElement 的 一 个 对 象 ， 带 有 操作 结果 ， 可 能 是 一 次 成 功 或 失败 。 

4) getPhysicalServerStatusPayload: 这 个 方法 创建 一 个 净 荷 ， 来 得 到 物理 服务 器 
状态 ， 依 据 的 是 物理 机 器 名 。 该 方法 返回 一 条 XML 消息 ， 表 示 为 类 OMElement 的 
一 个 对 象 ， 带 有 操作 结果 ， 可 能 是 一 次 成 功 或 失败 、CPU 数 、 核 数 、 总 的 RAM 内 
存 大 小 、 空 闲 RAM 内 存量 、 主 机 名 以 及 活跃 的 虚拟 域 的 数量 和 名 字 。 

5) getRegisteredNodesPayload; 这 个 方法 创建 一 个 净 荷 ， 来 得 到 注册 的 节点 ， 
没有 参数 。 该 方法 返回 一 条 XML 消息 ， 表 示 为 类 OMElement 的 一 个 对 象 ， 带 有 操 
作 结 果 (可 能 是 一 次 成 功 或 失败 ) 和 注册 节点 的 一 个 列表 。 

6) getVirtualMachineStatusPayload; 这 个 方法 创建 一 个 净 荷 ， 来 得 到 VM 状态 ， 
依据 的 是 寄居 VM 的 物理 机 器 和 VM 的 名 字 。 该 方法 返回 一 条 XML 消息 ， 表 示 为 
类 OMElement 的 一 个 对 象 ， 带 有 操作 结果 (可 能 是 一 次 成 功 或 失败 ) 、VM 的 名 字 、 
当前 RAM 内 存 大 小 、 可 被 使 用 的 总 RAM 内 存 、VCPU 的 当前 数量 、VM 可 使 用 的 
VCPU 最 大 数量 、 使 用 的 CPU 时 间 和 VM 的 当前 状态 。 

7) migrateVirtualMachinePayload; 这 个 方法 创建 一 个 净 荷 ， 来 迁移 一 个 VM, 
依据 的 是 源 物 理 机 器 的 名 字 、 目 的 物理 机 器 的 名 字 、VM 的 名 字 和 一 个 字符 串 〈 表 
明 该 操作 是 否 将 是 一 次 实况 迁移 ， 即 是 否 在 不 中 断 运行 于 VM 上 的 程序 的 情况 下 发 
生 迁 移 ) 。 该 方法 返回 一 条 XML 消息 ， 表 示 为 类 OMElement 的 一 个 对 象 ， 带 有 操 
作 结 果 ， 可 能 是 一 次 成 功 或 失败 。 

8) registerNodesPayload: 这 个 方法 创建 注册 节点 的 一 个 净 荷 ， 依 据 的 是 要 被 注 
册 的 物理 服务 器 的 一 个 列表 。 该 方法 返回 一 条 XML 消息 ， 表 示 为 类 OMElement 的 
一 个 对 象 ， 带 有 操作 结果 ， 可 能 是 一 次 成 功 或 失败 。 

9) sanityTestPayload: 这 个 方法 创建 一 个 净 荷 ， 来 请 求 一 次 健康 度 测试 ， 依 据 
的 是 将 被 发 送 到 VM 服务 器 的 一 个 字符 串 。 该 方法 返回 一 条 XML 消息 ， 表 示 为 类 
OMElement 的 一 个 对 象 ， 带 有 VM 服务 器 接收 的 字符 串 ， 即 测试 被 认为 是 比较 成 功 
的 ， 如 果 发 送 和 接收 字符 串 是 一 样 的 话 。 

10) shutdownVirtualMachinePayload; 这 个 方法 创建 一 个 净 荷 ， 来 关闭 一 个 VM， 
依据 的 是 寄居 该 VM 的 物理 机 器 的 名 字 和 VM 的 名 字 。 该 方法 返回 一 条 XML 消息， 
表示 为 类 OMElement 的 一 个 对 象 ， 带 有 操作 结果 ， 可 能 是 一 次 成 功 或 失败 。 

11) topologyDiscoverPayload; 这 个 方法 创建 一 个 净 荷 ， 来 发 现 拓扑 。 该 服务 没 
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有 参数 。 该 方法 返回 一 条 XML 消息 ， 表 示 为 类 OMElement 的 一 个 对 象 ， 带 有 操作 
结果 (可 能 是 一 次 成 功 或 失败 ) 以 及 物理 和 虚拟 拓扑 。 

12) getVirtualMachineSchedulerParametersPayload; 这 个 方法 创建 一 个 净 荷 ， 来 
得 到 VM 调度 器 参数 ， 依 据 的 是 寄居 该 VM 的 物理 机 器 名 字 和 VM 的 名 字 。 方 法 返 
回 一 条 XML 消息 ， 表 示 为 类 OMElement 的 一 个 对 象 ， 带 有 操作 结果 (可 能 是 一 次 
成 功 或 失败 ) 和 信用 调度 器 参数 (权重 和 上 限 ) 的 值 。 

13) setVirtualMachineSchedulerParametersPayload; 这 个 方法 创建 一 个 净 荷 ， 来 
设置 VM 调度 器 参数 ， 依 据 的 是 寄居 该 VM 的 物理 机 器 的 名 字 、 要 被 影响 的 VM 的 
名 字 、 权 重 参数 的 新 值 和 上 限 参数 的 新 值 。 方 法 返回 一 条 XML 消息 ， 表 示 为 类 
OMElement 的 一 个 对 象 ， 带 有 操作 结果 ， 可 能 是 一 次 成 功 或 失败 。 


2.2.3 图 形 用 户 界 面 


Xen 原型 的 CUI， 可 使 用 作为 VMS 组 成 部 分 而 开发 的 客户 端 ， 通 过 命令 行 请 
求 可 访问 VMS, GUI 使 用 的 所 有 服务 可 通过 这 个 Web 服务 通信 接口 访问 。 命 令 行 
客户 端 从 GUI 接收 服务 和 所 需要 的 参数 。 

下 面 介绍 虚拟 机 服务 器 以 及 原型 传感器 和 执行 器 。 

VMS (2.2.1 45) 提供 控制 网 络 Xen 机 器 的 一 个 集成 接口 。 多 数 管理 任务 是 使 
用 Libvirt JÆ [LIB 10] 完成 的 。 但 是 ， 存 在 不 能 仅 使 用 Libvirt 库 就 可 完成 的 一 些 
任务 ， 如 拓扑 发 现 。 对 于 这 些 任务 ， 必 须 开发 另外 的 应 用 集 。 

拓扑 发 现 模块 得 到 虚拟 的 和 物理 的 网 络 拓扑 。 另 外 ， 为 获得 有 关 CPU 、 内 存 
和 网 络 有 关 的 数据 等 信息 ， 需 要 另 一 个 模块 。 在 没有 报 文 丢失 的 条 件 下 ， 迁 移 一 个 
虚拟 路 由 器 也 要 求 一 个 模块 ， 同 样 控制 虚拟 路 由 器 吞吐 量 也 需要 一 个 模块 。 后 者 要 
求 一 个 调度 器 模块 作用 于 虚拟 路 由 器 之 VCPU 的 CAP (上 限 ) 。 为 完全 地 取得 它们 
的 目标 ， 所 有 这 些 附加 的 模块 必须 从 虚拟 路 由 器 和 物理 路 由 器 以 及 控制 器 得 到 数 
据 。 因 此 ， 为 将 所 有 这 些 模 块 互联 ， 也 需要 一 个 通信 模块 。 这 些 模块 之 间 的 交互 关 
系 如 图 2. 19 所 示 。 

无 论 何 时 当 VMS 希望 使 用 这 些 应 用 之 一 时 ， 它 就 通过 命令 行 传递 期 望 的 请 求 
而 调用 客户 端 通信 模块 。 如 果 请 求 是 发 往 一 台 物 理 路 由 器 的 ， 则 提供 物理 路 由 器 
IP 地 址 。 如 果 请 求 是 发 往 一 台 虚 拟 路 由 器 的 ， 则 物理 路 由 器 IP 地 址 和 虚拟 路 由 器 
IP 地 址 都 要 传递 给 客户 端 通信 模块 。 接 下 来 ， 客 户 端 通信 模块 采用 该 请 求 构造 一 
条 XML 消息 ， 并 通过 一 个 套 接 字 将 消息 发 送 到 运行 在 物理 路 由 器 内 部 的 服务 器 通 
信 模 块 。 如 果 请 求 涉及 物理 路 由 器 ， 则 服务 器 通信 模块 就 创建 合适 应 用 的 一 个 实例 
来 处 理 该 请 求 ， 以 所 提供 的 参数 调用 应 用 ， 并 将 包含 应 用 响应 的 一 个 XML 返回 给 
客户 端 通信 和 模块。 如 果 请 求 涉 及 一 台 虚 拟 路 由 器 ， 那 么 物理 路 由 器 就 作为 控制 器 和 
虚拟 路 由 器 之 间 的 一 个 中 介 。 在 这 种 情形 中 ， 服 务 器 通信 模块 将 由 客户 端 通信 模块 
发 送 的 消息 解 封装 ， 并 将 之 交 给 代理 模块 ， 该 代理 模块 负责 将 消息 发 送 到 适当 虚拟 
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图 2.19 控制 器 、 物 理 路 由 器 和 虚拟 路 由 器 模块 交互 关系 


路 由 器 的 服务 器 通信 模块 。 当 消息 到 达 虚 拟 路 由 器 中 的 服务 器 通信 模块 时 ， 就 创建 
适当 应 用 的 一 个 实例 ， 它 处 理 请 求 ， 且 通过 虚拟 路 由 器 服务 器 通信 模块 、 代 理 模 块 
和 物理 路 由 器 服务 器 通信 模块 ， 将 应 用 响应 发 回 控制 器 。 


2.3 OpenFlow 原型 


在 GTA 实验 室 [MAT 11] 开发 了 一 个 OpenFlow 原型 ， 对 新 的 接口 进行 试验 。 
本 节 描 述 与 一 个 OpenFlow 原型 有 关 的 组 件 。 

遵循 Xen 原型 的 相同 思想 ，OpenFlow 原型 也 可 基于 Web 服务 。 核 心 原型 和 外 
部 应 用 之 间 的 通信 使 用 HTTP ( 超 文本 传输 协议 ) 来 交换 XML 消息 。 为 测量 Open- 
Flow 网 络 的 性 能 ， 可 使 用 传感器 。 这 些 传感器 基本 上 是 安装 在 交换 机 上 的 计数 器 
(通过 OpenFlow 协议 可 进行 访问 ) 或 有 关 OpenFlow 表 的 信息 ( 如 流 表 项 数量 和 其 
他 统计 量 ) 。NOX 应 用 收集 传感器 信息 ， 并 使 它们 作为 一 个 Web 服务 而 为 外 部 
使 用 。 

2. 20 给 出 OpenFlow 原型 架构 。NOX 控制 器 是 OpenFlow 应 用 的 基础 。NOX 
控制 器 为 运行 于 其 上 的 应 用 提供 OpenFlow 协议 和 安全 信道 实现 。 


2.3.1 应 用 
下 面 描述 运行 于 一 个 NOX 控制 器 上 的 一 个 应 用 列表 以 及 它们 的 主要 目标 。 
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Web 服 务 器 应 用 
流 管理 器 应 用 
流 迁移 应 用 


[£2.20 OpenFlow 应 用 、NOX 以 及 代理 间 的 交互 关系 


1) 统计 应 用 : 这 项 应 用 收集 有 关 交 换 机 的 统计 信息 ， 并 将 它们 转换 为 一 条 
XML 消息 。 

2) 发 现 应 用 : 这 项 应 用 发 现 网 络 拓扑 ， 并 将 之 描述 为 一 条 XML 消息 。 

3) 生成 树 应 用 : 这 项 应 用 实现 一 个 生成 树 算法 ， 该 算法 避免 发 生 网 络 环 路 。 
所 定义 生成 树 的 拓扑 可 作为 一 条 XML 消息 。 

4) 流 管理 器 应 用 : 通过 添加 、 修 改 和 删除 流 ， 这 项 应 用 实现 流 变 化 方面 的 
操作 。 

5) 流 迁 移 应 用 : 通过 将 一 条 流 从 一 条 路 径 迁 移 到 另 一 条 路 径 ， 这 项 应 用 实现 
流 变 化 方面 的 操作 。 

6) Web 服务 器 应 用 : 这 项 应 用 提供 NOX 控制 器 应 用 各 项 特征 功能 间 的 集成 。 
WebServer App 实现 HTTP， 在 NOX 控制 器 应 用 和 外 部 应 用 之 间 提 供 一 个 接口 。 结 
果 是 ，NOX filas JH RE BR HTTP 请 求 ， 将 它们 转换 为 一 个 应 用 方法 调用 ， 并 执 
行 该 方法 。 试 验 所 用 的 原型 实现 了 WebServer App 的 一 个 客户 端 。 客 户 端 是 另 一 个 
Web 服务 器 ， 使 管理 员 能 够 控制 OpenFlow 网 络 。 这 个 客户 端 参与 到 一 项 Web 应 
用 ， 它 提供 一 个 GUI， 在 后 面 的 2. 3. 3 节 加 以 描述 。 


2.3.2 OpenFlow Web 服务 器 


WebServer App [MAT 12] 是 负责 为 其 他 NOX 应 用 提供 一 个 Web 接口 的 一 项 
NOX 应 用 。 该 WebServer App 实现 Web 服务 的 概念 ， 其 中 其 他 应 用 的 功能 可 通过 
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一 条 HTTP 请 求 加 以 访问 ， 并 返回 XML 消息。 这 项 应 用 的 实现 是 基于 NOX Web fk 
务 器 默认 应 用 的 ， 可 被 设置 运行 在 8080 端口 上 ， 侦 听 HTTP 请 求 。 所 有 HTTP 请 求 
是 由 OpenFlow 资源 来 处 理 的 ， 这 是 在 mywebserver 应 用 上 定义 的 。 对 于 由 OpenFlow 
资源 提供 的 每 项 Web 服务 ， 存 在 在 MyWebServerResource 类 中 定义 的 一 个 方法 。 下 
面 描述 与 每 个 WebServer App 组 件 有 关 的 概念 。 

NOX 默认 WebServer App 为 将 网 站 部 署 为 一 项 NOX 应 用 实现 了 一 个 框架 。 这 
项 特征 功能 被 用 来 将 Web 服务 实现 为 一 种 特殊 种 类 的 网 站 。mywebserver 类 是 类 实 
现 的 一 个 NOX 应 用 。 它 启动 必须 与 WebServer App 同时 运行 的 所 有 应 用 。 它 也 启 
动 NOX 默认 WebServer App， 并 将 其 默认 资源 定义 为 类 MyWebServerResource 的 一 
个 对 象 。MyWebServerResource 类 定义 一 个 资源 ， 该 资源 是 一 种 网 站 ， 由 NOX 默认 
WebServer App 加 以 实现 。 这 个 类 也 实现 URL 请 求 到 功能 调用 的 映射 ， 在 用 户 和 
OpenFlow 网 络 之 间 提 供 一 个 接口 。 存 在 已 经 在 MyWebServerResource 上 实现 的 一 些 
服务 。 每 项 服务 可 使 用 一 个 特定 URL 由 一 条 HTTP 请 求 加 以 访问 。 下 面 描述 各 项 
服务 。 

1) getStats: 这 项 服务 不 带 任何 参数 。 它 调用 Stats App (统计 应 用 ) ， 并 在 一 
条 XML 消息 中 返回 有 关 OpenFlow 交换 机 网 络 的 统计 和 信息 。 

2) getTopology: 这 项 服务 不 带 任何 参数 。 它 调用 Discovery App (发 现 应 
用 ) ， 并 在 一 条 XML 消息 中 返回 网 络 的 拓扑 。 这 项 服务 返回 所 有 网 络 链 路 的 一 个 
列表 。 

3) getNeighbor: 这 项 服务 不 带 任何 参数 。 它 调用 Discovery App ( 发现 应 用 ) , 
并 在 一 条 XML 消息 中 返回 网 络 的 拓扑 。 这 项 服务 为 网 络 中 的 每 个 节点 返回 所 有 邻 
居 的 列表 。 

4) getSpanningTree: 这 项 服务 不 带 任何 参数 。 它 调用 Discovery App (发 现 应 
RD, ， 并 在 一 条 XML 消息 中 返回 网 络 的 生成 树 。 这 项 服务 为 网 络 中 的 每 个 节点 返 
回 节点 邻居 列表 ， 这 些 邻 居 由 一 条 生成 树 链 路 连接 到 该 节点 。 

5) addFlow: 这 项 服务 以 流 特征 作为 参数 ， 像 流 匹 配 、 空 闲 超时 、 硬 超时 、 优 
先 级 和 动作 等 。 这 项 服务 添加 调用 FlowManager App ( 流 管理 器 应 用 ) 的 一 条 新 流 ， 
流 管理 器 应 用 实施 在 网 络 上 所 要 求 的 动作 。 

6) delFlow: 这 项 服务 以 流 特 征 作 为 参数 ， 像 流 匹 配 、 空 闲 超 时 、 硬 超时 、 优 
先 级 和 动作 等 。 这 项 服务 删除 调用 FlowManager App ( 流 管理 器 应 用 ) 的 一 条 新 流 ， 
流 管理 器 应 用 实施 在 网 络 上 所 要 求 的 动作 。 

7) migrateFlow: 这 项 服务 以 流 特 征 作为 参数 ， 像 流 匹 配 、 空 闲 超 时 、 硬 超时 、 
优先 级 、 动 作 以 及 在 其 上 必须 设置 该 流 的 交换 机 列表 等 。 这 项 服务 调用 FlowManag- 
er App ( 流 管 理 器 应 用 ) 迁移 一 条 新 流 ， 流 管理 器 应 用 实施 在 网 络 上 所 要 求 的 
动作 。 
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2.3.3 图 形 用 户 界 面 


OpenFlow 交换 机 依据 包含 活跃 流 的 一 个 流 表 ， 转 发 网 络 流量 。 这 个 表 包 含 流 
特征 和 要 实施 的 规则 ， 如 确定 队列 和 输出 端口 。 这 个 表 可 以 本 地 方式 或 由 一 个 网 络 
控制 器 进行 配置 。 为 方便 配置 和 网 络 管理 ， 可 实现 一 个 用 户 友 好 的 界面 ， 使 用 户 可 
修改 流 表 。 这 个 用 户 界 面 是 依据 一 项 Web 应 用 开发 的 ， 其 中 使 用 一 个 网 页 浏览 器 ， 
用 户 可 访问 该 界面 ， 并 运行 命令 和 查询 来 管理 网 络 。 

提供 GUI 的 应 用 被 分 成 三 层 。 第 一 层 是 数据 层 ， 用 于 执行 用 户 命令 ， 并 实施 
数据 收集 作为 对 查询 的 响应 。 第 二 层 是 数据 处 理 层 ， 在 将 所 有 接收 到 的 信息 发 送 给 
其 他 层 之 前 ， 对 之 进行 处 理 。 第 三 层 是 呈现 层 ， 它 组 织 数据 并 将 之 显示 给 用 户 。 由 
层 结构 提供 的 隔离 ， 支 持 在 不 修改 其 他 层 的 条 件 下 ， 修 改 一 个 特定 的 层 。 图 2. 21 
给 出 应 用 的 各 层 以 及 用 来 交换 消息 的 协议 。 


数据 层 






NOX 控 制 器 数据 处 理 层 呈现 层 
HTTP HTTP & 
Web 服 务 器 用 户 
OpenFlow 网 络 
图 2.21 应 用 层 


1) 数据 层 : 数据 层 由 一 个 NOX 控制 器 及 其 各 应 用 组 成 。 应 用 WebServer App 
负责 在 数据 层 和 数据 处 理 层 之 间 提 供 通信 接口 。 这 个 应 用 在 HTTP 上 与 数据 处 理 层 
通信 。 

2) 数据 处 理 层 : 数据 处 理 层 由 一 个 Web 服务 器 组 成 ， 它 处 理 来 自用 户 的 请 求 
和 命令 。 设 计 自 己 的 服务 器 ， 而 不 是 使 用 诸如 Apache 的 一 个 现 有 服务 器 ， 对 于 赋 
予 管理 员 对 所 提供 服务 的 完全 控制 ， 可 能 是 有 用 的 ， 这 样 做 的 结果 是 ， 它 有 利于 系 
统 开 发 。 

3) 呈现 层 : 呈现 层 由 标记 文件 和 脚本 文件 组 成 ， 它 们 由 网 页 浏览 器 加 以 解 
释 ， 可 以 是 超 文本 标记 语言 (HTML), JavaScript (JS) 、 级 联 风格 表单 ( CSS) 
XML 和 可 扩展 向 量 图 形 (SVG) xf. HTML 文件 有 网 页 描述 ， 一 个 网 页 浏览 器 
可 解释 之 ， 以 便 显示 这 个 网 页 。 

CSS 文件 将 风格 进行 标记 ， 以 改进 由 HTML 提供 的 呈现 。 一 个 CSS 文件 由 网 页 
浏览 器 解释 ， 将 风格 应 用 到 HTML 标记 。JS 文件 拥有 使 网 页 变 得 动态 和 交互 性 的 
脚本 功能 。 为 显示 或 交换 数据 ，XML 文件 拥有 网 页 浏览 器 或 JS 函数 使 用 的 信息 。 
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作为 用 户 命令 响应 提供 的 消息 是 XML 消息 。 

SVG 文件 有 网 络 拓扑 的 一 个 XML 描述 ， 以 便 提供 图 形 可 视 化 。SVG 和 JS 的 一 
个 组 合 支持 由 SVG 产生 的 图 像 的 动画 和 交互 。 

在 这 一 层 ， 存 在 支持 用 户 获取 网 络 信息 和 执行 命令 的 资源 。 


2.4 人 小结 


本 章 使 用 了 两 个 虚拟 化 平台 OpenFlow 和 Xen， 实 施 了 性 能 测量 。 给 出 的 结果 
表明 Xen 支持 一 个 高 度 灵 活 的 环境 ， 不 同 协议 栈 并 行 运行 ， 其 中 使 用 定制 的 网 络 
一 数据 转发 结构 和 查找 算法 。 这 种 灵活 性 具有 一 个 高 性 能 代价 ， 将 VM 报 文 转发 容 
量 限制 到 小 于 200kp/s。 另 外 ，OpenFlow 给 出 类 似 于 原生 Linux 环境 的 报 文 转发 
性 能 。 

本 章 还 介绍 了 每 个 虚拟 化 平台 的 一 个 原型 ， 同 时 也 介绍 了 可 在 每 个 平台 上 使 用 
的 接口 。 对 于 Xen FA, EH Web 服务 概念 开发 了 一 个 VMS。 使 用 VMS， 可 控制 
网 络 的 物理 主机 和 虚拟 主机 。 为 简化 一 名 人 类 代理 的 网 络 管理 负担 ， 可 开发 一 个 
GUI。 这 个 界面 可 被 用 来 显示 网 络 的 拓扑 ， 并 作用 于 它 的 各 个 网 元 。 

在 OpenFlow 原型 中 ， 也 可 开发 类 似 工具 。WebServer App 向 关注 于 管理 Open- 
Flow 网 络 的 各 代理 提供 一 个 Web 接口 。 也 可 开发 一 个 GUI。 可 使 用 一 个 网 页 浏览 
器 访问 这 个 接口 ， 显 示 与 OpenFlow 网 络 有 关 的 信息 。 可 向 虚拟 化 平台 Xen 和 
OpenFlow 添加 更 多 服务 。 此 外 ， 可 提出 其 他 虚拟 化 平台 ， 并 可 添加 类 似 服 务 ， 且 
与 现 有 平台 进行 比较 。 
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第 3 章 虚拟 网 元 的 性 能 改进 和 控制 


第 2 章 定 义 了 5 个 原 语 (实例 化 、 删 除 、 迁 移 、 监 测 和 设置 ) ， 这 是 为 支持 引 
导 平 面 控制 和 管理 虚拟 网 元 ， 网 络 虚拟 化 基础 设施 必须 提供 的 原 语 [SEN 10]。 
图 3. 1 给 出 引导 平面 和 一 个 通用 虚拟 化 网 元 之 间 的 关系 。 

原 语 
实例 化 删除、 迁移 、 设 置 








图 3.1 控制 原 语 以 及 引导 平面 和 虚拟 化 网 元 之 间 的 关系 


基本 上 ， 引 导 平 面 运行 智能 算法 [SOA 10, FRE 10] ， 以 自动 化 地 实例 化 / 删 
除 虚拟 网 络 ， 以 及 迁移 网 元 并 设置 其 资源 分 配 参数 [VAN 10, ALK 10]。 因 此 ， 
引导 平面 需要 获取 信息 ， 并 使 用 监测 原 语 。 这 个 原 语 执行 到 监测 工具 的 调用 ， 这 些 
工具 是 测量 所 关注 变量 (如 可 用 带宽 、 处 理 器 和 内 存 使 用 、 链 路 和 端 到 端 时 延 ) 
所 需要 的 。 在 监测 之 后 ， 通 过 使 用 四 个 原 语 ， 引 导 平 面 就 能 够 作用 于 网 络 。 可 用 来 
监测 和 设置 的 参数 包括 低层 次 和 硬件 特定 的 参数 ， 如 赋予 一 个 虚拟 路 由 器 的 虚拟 路 
由 器 数 和 在 一 个 竞争 场景 中 处 理 器 使 用 的 优先 级 。 因 此 ， 依 据 当 前 网 络 状 态 、 用 户 
数 、 每 个 虚拟 网 络 的 优先 级 、 服 务 水 平 协议 (SLA) 等 ,引导 平 面 动态 地 调整 分 配 
给 每 个 虚拟 网 络 的 资源 。 

考虑 一 个 虚拟 网 元 有 两 个 主要 平面 : 虚拟 化 平面 和 引导 平面 。 虚 拟 化 平面 为 在 
单个 共享 物理 网 络 之 上 运行 逻辑 网 元 提供 基层 。 引 导 平 面 基于 SLA 为 每 个 虚拟 网 
络 进行 网 络 性 能 优化 提供 智能 。 图 3. 2 给 出 一 个 通用 虚拟 网 元 的 架构 (如 第 2 章 中 







XML 消息 





物理 资源 和 
虚拟 资源 


图 3.2 一 种 通用 虚拟 网 元 的 架构 : 控制 器 接收 通过 传感器 获取 的 数据 ， 
并 发 送 命令 来 管理 网 元 的 物理 资源 和 虚拟 资源 
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给 出 的 架构 ) 。 节 点 的 核心 是 虚拟 化 系统 ， 可 由 诸如 Xen 或 OpenFlow 等 不 同 虚拟 
化 工具 加 以 实现 。 传 感 器 和 执行 器 也 是 虚拟 化 系统 的 组 成 部 分 。 传 感 器 收集 支持 它 
们 所 属 语 境 描述 的 信息 ， 执 行 器 是 实施 动作 的 软件 组 件 ， 这 是 在 网 元 上 的 引导 平面 
所 需要 的 。 在 图 3. 2 中 ， 控 制 器 表示 引导 平面 ， 它 接收 和 聚集 由 各 节点 发 送 的 信 
息 ， 之 后 发 送 命令 ,设置 参数 和 在 各 节点 上 实施 控制 动作 。 所 有 节点 必须 提供 到 引 
导 平 面 的 一 个 接口 ， 并 应 该 能 够 与 之 交换 可 扩展 标记 语言 (XML) 控制 消息 。 

本 章 将 焦点 放 在 虚拟 化 系统 所 要 求 的 特定 修改 上 面 ， 目 的 是 实现 引导 平面 使 用 
的 5 个 原 语 ， 并 改进 虚拟 化 网 络 单元 的 性 能 。 每 个 虚拟 化 工具 引入 一 个 不 同 的 传 感 
器 集合 ， 同 时 要 求 不 同 机 制 ， 来 管理 网 络 和 实现 引导 平面 的 各 原 语 。 例 如 ，Xen 提 
供 内 置 的 执行 器 来 创建 和 销毁 虚拟 机 (VM) ， 但 原生 VM 迁移 机 制 不 能 良好 地 适应 
于 虚拟 路 由 器 应 用 ， 原 因 是 它 没有 避免 报 文 丢 失 。 因 此 ， 必 须 提供 一 种 高 效 的 迁移 
机 制 。 类 似 于 Xen, OpenFlow 提供 创建 和 销毁 流 的 执行 器 ， 但 它 也 缺少 一 种 原生 的 
流 迁 移 机 制 。 因 此 ， 针 对 基于 Xen [PIS 11] 和 OpenFlow [MAT 11] 虚拟 化 工具 ， 
详细 描述 了 实现 方面 的 改进 ” 。 


3.1 基于 Xen 的 原型 


基于 Xen 的 网 络 原型 由 运行 在 不 同类 型 节点 上 的 几 个 模块 组 成 。 基 本 而 言 ， 
每 个 节点 扮演 一 个 不 同 角色 : 控制 器 、 路 由 器 或 客户 端 。 控 制 器 是 一 个 特殊 节点 ， 
它 接收 和 合并 从 所 有 网 络 节点 接收 到 的 数据 。 控 制 器 节点 获取 数据 ， 并 将 命令 发 送 
到 物理 路 由 器 和 虚拟 路 由 器 。 路 由 器 节点 是 网 络 子 层 。 一 台 物 理 路 由 器 运行 一 个 或 
多 个 虚拟 路 由 器 。 物 理 路 由 器 和 虚拟 路 由 器 运行 几 个 模块 ， 它 们 实施 监测 ， 并 在 接 
收 到 命令 时 立刻 实施 动作 。 最 后 ， 客 户 端 节 点 允许 用 户 使 用 一 个 图 形 用 户 界 面 
(GUI) 与 控制 器 交互 。 这 个 GUI 为 用 户 监测 提供 原型 信息 ， 同 时 也 提供 一 个 简单 
的 控制 接口 。 图 3. 3 详细 给 出 基于 Xen 的 原型 的 主要 模块 及 其 接口 。 

控制 器 有 两 个 模块 : 虚拟 机 服务 器 〈VMS) [ALV 12] 和 客户 端 通信 。VMS 
是 控制 器 的 核心 。 它 有 一 个 简单 对 象 访问 协议 (SOAP) 接口 ， 用 于 与 引导 平面 和 
客户 端 节点 交互 通信 。VMS 合并 所 有 原型 信息 ， 并 执行 所 有 控制 和 维护 算法 。 在 
2.2.1 节 中 给 出 VMS 的 详细 描述 。VMS 使 用 客户 端 通信 模块 ， 与 运行 在 路 由 器 上 
的 其 他 路 由 器 节点 模块 通信 。 

物理 路 由 器 提供 由 虚拟 网 络 所 用 的 基层 。 每 个 物理 路 由 器 执行 路 由 器 通信 模 
块 ， 它 从 控制 器 接收 请 求 ， 并 将 这 些 请 求 转发 到 特定 模块 。 如 果 一 条 请 求 的 地 址 是 
到 一 个 给 定 虚拟 路 由 器 ， 通 过 使 用 代理 模块 ， 它 被 转发 到 特定 虚拟 路 由 器 。 否 则 ， 


”这 两 个 原型 是 由 Horizon THA (http: //www. gta. ufrj br/horizon) 开发 的 
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图 3.3 基于 Xen 的 原型 架构 : 主 模块 和 相互 关系 


如 果 所 接收 的 请 求 涉及 一 项 监测 任务 ， 则 它 被 转发 到 数据 采集 器 模块 从 物理 路 由 器 
和 虚拟 路 由 器 获取 测量 数据 。 如 果 所 接收 的 请 求 对 应 于 与 虚拟 路 由 器 间 资 源 共 享有 
关 的 一 个 动作 ， 则 调度 器 模块 处 理 这 条 请 求 。 拓 扑 发 现 模块 处 理 与 物理 或 虚拟 网 络 
拓扑 发 现 有 关 的 请 求 。 迁 移 请 求 是 由 迁移 模块 处 理 的 ， 在 没有 报 文 丢 失 的 条 件 下 ， 
它 提供 虚拟 路 由 器 迁移 ， 这 在 3. 1. 1 节 详 细 描 述 。 

客户 端 节点 使 用 户 能 够 监测 和 控制 网 络 原型 。 这 个 节点 有 一 个 GUI， 显 示 物 理 
和 虚拟 网 络 拓 扑 ， 并 另外 支持 细 粒 度 监测 ， 方 法 是 展示 有 关 一 台 被 选中 物理 路 由 器 
或 虚拟 路 由 器 的 详细 信息 。 客 户 端 节点 也 使 用 户 将 命令 发 送 到 原型 。 例 如 ， 用 户 可 
通过 一 次 鼠标 单 击 ， 将 一 台 虚 拟 路 由 器 从 一 台 物 理 路 由 器 迁移 到 另 一 台 物 理 路 由 
带 。 通 过 使 用 包装 器 模块 ， 运 行 在 客户 端 上 的 GUI 与 控制 器 交互 通信 。 这 个 模块 
将 命令 从 GUI 转换 到 SOAP， 之 后 调用 控制 器 。 包 装 器 模块 也 将 来 自控 制 器 的 
SOAP 响应 转换 到 GUI 所 期 望 的 响应 模式 [KAR 10], 

下 面 各 节 描 述 对 在 网 络 原型 中 采用 的 Xen 实现 改进 。3. 1. 1 节 描 述 原生 Xen if 
移 机 制 ， 并 介绍 我 们 的 机 制 ， 这 使 得 可 以 在 没有 报 文 丢 失 的 情况 下 实现 虚拟 路 由 器 
迁移 。3. 1.2 节 给 出 进行 网 络 监测 的 工具 。3. 1. 3 节 描 述 负责 发 现 物理 和 虚拟 网 络 
拓扑 的 模块 。 最 后 ，3. 1. 4 节 给 出 新 的 虚拟 化 硬件 支持 技术 [ 当前 它们 可 用 来 改进 
输入 /输出 (IX0) 虚拟 化 性 能 ] 及 其 对 虚拟 路 由 器 的 影响 。 


3.1.1 Xen 迁移 
迁移 原 语 用 来 在 虚拟 路 由 器 间 重 新 分 配 物 理 资 源 。 思 路 是 在 不 中 断 报 文 转 发 和 
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网 络 控制 服务 的 条 件 下 ， 在 可 用 物理 资源 间 移 动 虚拟 网 络 / 路 由 器 [WAN 08]. if 
移 的 一 个 特例 是 实况 迁移 ， 在 不 关闭 运行 路 由 器 的 条 件 下 ， 这 人 允许 实施 网 络 拓 扑 的 
动态 重新 配置 。 因 此 ， 实 况 迁 移 使 物理 资源 的 动态 规划 和 应 需 流量 管理 成 为 可 能 。 

分 析 标 准 的 Xen 迁移 方案 ， 也 提出 一 种 新 的 迁移 模型 ， 该 模型 修正 了 在 标准 
机 制 中 发 现 的 问题 。 迁 移 是 一 条 重要 的 控制 原 语 ， 原 因 是 它 使 引导 平面 动态 地 重新 
排列 逻辑 网 络 拓 扑 ， 而 不 中 断 运 行 的 服务 且 没 有 报 文 丢失 。 在 这 些 技术 的 正式 定义 
之 后 ， 给 出 该 原型 的 一 个 详细 的 文档 描述 ， 以 及 原型 的 概述 和 功能 。 

Xen 有 一 种 原生 迁移 机 制 ， 是 为 移动 VM 而 开发 的 【 CLA 05 ] 。 这 种 机 制 基于 
两 个 假设 : 迁移 是 在 一 个 局 域 网 内 发 生 的 ; QVM 硬盘 是 在 网 络 之 上 共享 的 2” 。 
因此 ，VM 迁移 由 两 个 主要 规程 组 成 : OF VM 内 存 复制 到 新 的 物理 位 置 ; @ 在 不 
中 断 连 接 的 条 件 下 ， 网 络 链 路 的 重新 配置 。 

实施 内 存 复制 ， 有 几 种 方案 。 最 简单 的 方案 是 悬挂 VM， 将 所 有 内 存 页 传递 到 
新 的 物理 节点 ， 之 后 恢复 VM。 虽 然 简单 ， 但 这 种 方案 遇 到 高 宕 机 时 间 问 题 ， 该 时 
间 是 在 迁移 过 程 中 一 个 VM 不 可 用 的 时 间 。 为 降低 宕 机 时 间 ， 悬 挂 一 传递 一 恢复 规 
程 演化 到 预 复 制 迁 移 ， 它 有 两 个 阶段 : 中 迭代 预 复 制 ; @ 停 止 之 后 复制 。 在 第 一 个 
阶段 过 程 中 ， 除 了 那些 称 作 “ 热 页 面 ”( 这 是 最 频繁 被 修改 的 页 面 ) 内 存 页 外 ， 所 
有 内 存 页 都 被 传递 到 新 的 物理 机 器 。 因 此 ， 宕 机 时 间 得 到 降低 ， 原 因 是 在 VM 宕 机 
时 传递 一 些 页 面 ， 仪 是 热 页 面 而 不 是 所 有 内 存 页 面 。 迭 代 预 复制 阶段 工作 过 程 如 
下 。 在 第 一 轮 中 ， 以 网 络 管理 员 指 定 的 一 个 最 小 传递 速率 ， 将 所 有 内 存 页 从 源 机 器 
传递 到 目的 机 器 。 之 后 ， 在 接 下 来 的 轮 次 中 ， 仅 有 在 前 一 个 轮 次 过 程 中 由 操作 系统 
污染 的 内 存 页 才 被 传递 。 依 据 一 种 基于 “污染 速率 ”的 自 适 应 机 制 ， 在 每 个 轮 次 
更 新 传递 速率 。 在 每 个 轮 次 ， 计 算 污染 速率 ,为 在 上 一 轮 次 被 污染 页 数 与 上 一 轮 次 
的 时 长 之 比 。 之 后 ， 得 到 下 一 轮 次 的 最 大 速率 ， 方 法 是 将 50Mbit/s 的 常数 增 量 加 
到 计算 得 到 的 污染 速率 。 如 果 轮 次 的 最 大 速率 等 于 管理 员 指定 的 最 大 速率 或 仍然 需 
要 传递 的 污染 页 小 于 256kB， 则 预 复制 结束 。 在 此 之 后 ， 停 止 之 后 复制 阶段 开始 ， 
悬挂 VM， 并 以 最 大 传递 速率 将 热 页 面 传递 到 目的 节点 。 之 后 ， 当 目的 节点 向 老 的 
物理 节点 确认 接收 到 整个 内 存 时 ， 则 该 过 程 结束 。 

清楚 的 是 ， 对 于 服务 器 合并 应 用 ，Xen 原生 VM 迁移 机 制 工作 良好 ， 但 对 于 虚 
拟 路 由 器 迁移 ， 它 却 不 是 高 效 的 。 通 过 使 用 预 复制 机 制 ， 宕 机 时 间 处 在 数 百 毫秒 ， 
在 这 个 时 间 过 程 中 的 报 文 会 丢失 。 取 决 于 数据 传输 速率 ， 在 宕 机 时 间 过 程 中 ， 虚 拟 
路 由 器 经 历 大 量 报 文 丢失 。 为 保障 快速 地 释放 源 物理 机 絮 的 资源 而 最 小 化 总 迁移 时 
间 ， 同 样 是 重要 的 。 迁 移 虚 拟 路 由 器 的 Xen 原生 机 制 的 另 一 个 问题 是 ， 它 假定 迁 


O ”如果 源 节点 和 目的 节点 实现 相同 的 小 型 应 用 集 ， 则 这 个 共享 的 磁盘 假设 条 件 可 以 松弛 [ WAN 08] 
( 即 不 那么 严格 ) 。 那 么 ， 目 的 节点 就 能 够 将 这 些 应 用 载 人 到 新 VM 的 文件 系统 上 。 因此, 仅 有 VM 
内 存 和 配置 文件 是 必须 被 迁移 的 。 
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移 总 是 从 一 台 物理 路 由 器 迁移 到 同一 局 域 网 (LAN) 中 的 另 一 台 物 理 路 由 器 。 在 
互联 网 中 ， 不 能 假定 物理 节点 总 是 属于 同一 个 局 域 网 。 

为 以 没有 报 文 丢 失地 迁移 虚拟 路 由 器 ， 一 种 方案 是 在 Xen 中 实现 平面 隔离 技 
X [PIS 10] 。 如 在 第 2 章 中 解释 的 ， 一 个 网 元 有 两 个 平面 : 控制 平面 和 数据 平面 。 
控制 平面 运行 所 有 的 控制 算法 并 构建 路 由 表 ， 而 数据 平面 转发 报 文 。 采 用 Xen， 两 
个 平面 都 是 在 VM 内 (或 采用 用 户 域 一 域 U) 内 实现 的 。 在 原型 中 ， 控 制 平面 保持 
在 VM 中 ， 而 数据 平面 是 在 域 0 中 实现 的 。 每 个 虚拟 路 由 器 在 域 0 中 都 有 其 自己 的 
转发 表 ， 且 每 个 表 都 是 原 转发 表 的 一 个 复 本 ， 该 表 是 由 运行 在 VM 中 的 路 由 软件 构 
造 的 。 当 域 0 接收 一 条 控制 消息 时 ， 它 检查 该 消息 属于 哪个 网 络 ， 并 将 该 消息 转发 
到 相应 的 VM。 当 域 0 接收 一 条 数据 消息 时 ， 基 于 对 应 于 那个 虚拟 网 络 的 一 个 转发 
表 ， 由 这 个 域 转 发 该 消息 。 

采用 平面 隔离 的 迁移 机 制 工作 过 程 如 下 。 首 先 ， 该 规程 以 与 原生 迁移 机 制 相 同 
的 方式 启动 : 执行 迭代 预 复制 阶段 ,暂停 VM， 且 剩余 的 污染 内 存 页 被 传递 到 新 的 
物理 路 由 器 。 在 这 个 时 间 过 程 中 ， 数 据 路 径 继续 在 源 物理 路 由 器 中 的 域 0 处 工作 。 
因此 ， 直 到 这 个 阶段 结束 之 前 ， 既 没有 中 断 也 没有 报 文 丢 失 。 不 同 于 原生 机 制 的 
是 ， 零 报 文 丢失 修正 机 制 在 域 0 中 运行 一 个 守护 进程 ， 为 正 被 迁移 的 VM 缓冲 控制 
报 文 。 当 整个 内 存 都 被 复制 后 ， 在 新 的 物理 机 器 上 恢复 VM， 使 用 一 个 动态 接口 绑 
定 模块 ， 在 这 个 新 的 域 0 中 创建 网 络 连接 ， 接 口 绑 定 模块 将 虚拟 网 络 接口 映射 到 新 
物理 路 由 器 的 物理 网 络 接口 。 为 传递 控制 报 文 (被 缓存 在 源 域 0 中 ) ， 创 建 从 源 物 
理 机 器 到 新 物理 机 器 的 一 条 隧道 ， 对 于 新 的 控制 报 文 也 做 如 此 处 理 。 最 后 ， 广 播 地 
址 解析 协议 (ARP) 应 答 来 更 新 链 路 ， 且 在 老 物 理 机 器 中 的 数据 路 径 被 清除 。 

采用 平面 隔离 的 迁移 机 制 保障 在 VM 迁移 过 程 中 在 数据 平面 没有 报 文 丢失 。 也 
没有 控制 报 文 丢失 。 这 种 机 制 仅 在 控制 报 文 交付 中 插入 一 个 时 延 。 但 是 ， 修 正 机 制 
是 基于 Xen 默认 迁移 的 ， 即 它 也 要 求 各 路 由 器 处 在 相同 LAN 内 。 另 外 ， 将 一 条 虚 
拟 链 路 映射 到 多 条 物理 链 路 仍然 是 一 个 开放 问题 ， 它 取决 于 诸如 互联 网 协议 (IP) 
隧道 或 在 网 络 上 实例 化 新 的 虚拟 路 由 器 等 解决 方案 。 例 如 ， 在 图 3. 4 中 ， 将 物理 节 
点 2 中 的 虚拟 节点 B 迁移 到 物理 节点 6。 但是， 物理 节点 6 不 是 物理 节点 1 的 一 个 
一 跳 邻居 。 结 果 是 ， 为 完成 链 路 迁移 ， 需 要 创建 从 物理 节点 6 到 物理 节点 1 的 一 条 
隧道 ， 来 模拟 一 个 一 跳 邻 居 关 系 。 另 一 种 解决 方案 是 实例 化 一 台新 的 虚拟 路 由 器 来 
替代 隧道 。 但 是 ， 这 种 解决 方案 修改 了 虚拟 拓扑 ， 并 影响 路 由 协议 操作 。 

为 实现 平面 隔离 ， 在 原生 Xen 上 的 修正 如 下 。 首 先 ， 为 将 控制 消息 发 送 到 合 
适 的 VM， 域 0 应 该 知道 运行 在 其 相同 物理 机 器 中 的 所 有 VM。 此 外 ， 控 制 平面 和 
数据 平面 应 该 交互 以 维持 转发 表 的 一 致 性 。 为 做 到 这 一 点 ， 创 建 两 个 组 件 ，Hello 
组 件 和 路 由 改变 组 件 。Hello 组 件 将 每 个 VM 的 主机 名 和 网 络 接口 信息 发 送 到 域 0。 
之 后 ， 域 0 为 这 台 虚 拟 路 由 器 创建 一 个 路 由 表 和 使 用 这 个 表 的 规则 。 因 此 ， 使 用 虚 
拟 路 由 器 特定 路 由 表 ， 由 域 0 转发 这 台 路 由 器 的 所 有 报 文 。 之 后 ， 开 始 控制 平面 监 
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虚拟 节点 B 虚拟 节点 C 





物理 节点 5 物理 节点 6 物理 节点 7 


图 3.4 基于 Xen 的 路 由 器 迁移 例子 ， 其 中 一 条 虚拟 链 路 被 映射 到 物理 网 络 中 的 一 条 多 跳 路 径 

(1) 将 控制 平面 从 物理 节点 2 迁移 到 物理 节点 6 (维持 数据 和 控制 平面 ) (2) 完成 接口 动态 绑 定 ， 并 在 物 

理 节 点 ! 和 物理 节点 6 之 间 创 建 隧道 (3) 在 物理 节点 6 的 域 0 中 创建 一 个 新 的 转发 表 (4) 以 ARP 应 答 重 
新 配置 链 路 (5) 删除 物理 节点 2 上 的 数据 平面 


测 。 当 一 条 路 由 发 生变 化 时 ， 这 个 变化 也 是 在 域 0 中 执行 的 。 路 由 变化 组 件 监 测 路 
由 修改 。 也 存在 另 一 个 组 件 ， 它 在 迁移 过 程 即 迁移 建议 (Migration Advise) 组 件 过 
程 中 使 用 。 这 个 组 件 运行 在 源 域 0 和 目的 域 0 上 ， 并 报告 迁移 过 程 的 成 功 或 失败 。 
使 用 这 个 域 0 中 的 数据 平面 ， 路 由 器 继续 转发 报 文 ， 直 到 网 络 管理 器 实际 上 决定 将 
之 迁移 到 另 一 台 物 理 机 器 时 为 止 。 标 准 Xen 迁移 规程 是 零 丢失 原型 规程 的 原型 第 
一 步 。 通 过 使 用 这 种 机 制 ， 迁 移 控 制 平面 ， 但 将 数据 平面 保持 在 其 当前 物理 机 器 
(也 称 作 源 域 0) 中 。 在 此 之 后 ， 在 目的 物理 机 器 〈 也 称 作 目的 域 0) 上 创建 这 台 
虚拟 路 由 器 的 转发 环境 、 路 由 表 和 规则 。 采 用 被 迁移 VM 中 的 控制 平面 路 由 扩散 新 
的 路 由 表 。 此 时 ， 就 使 源 域 0 转发 报 文 和 目的 域 0 准备 好 实施 转发 。 启 动 链 路 的 迁 
移 。 为 迁移 链 路 ， 使 用 ARP 机 制 ， 这 强制 原型 将 一 个 逻辑 跳 映 射 到 两 个 或 多 个 物 
理 跳 。 因 此 ， 迁 移 发 生 在 与 所 有 逻辑 邻居 具有 连通 性 的 机 器 之 间 。 为 以 给 定 IP Ji 
址 通知 接口 的 介质 访问 控制 (MAC) 地 址 ， 发 送 ARP 应 答 消 息 。 因 此 ， 目 的 物理 
机 器 为 使 用 这 人 台 虚 拟 路 由 器 的 每 个 接口 发 送 ARP. 应 答 消 息 ， 将 该 路 由 器 当前 在 另 
一 个 位 置 的 信息 通知 各 个 邻居 。 之 后 ， 迁 移 所 有 链 路 ， 并 放弃 运行 在 源 域 0 之 上 的 
数据 平面 。 


3.1.2 Xen 统计 信息 


为 管理 虚拟 路 由 器 和 网 络 ， 引 导 平 面 要 求 统计 信息 。Xen 提供 一 些 工 具 ， 获 取 
BRS VM 的 有 限 信息 。 因 此 ， 开 发 了 测量 工具 ， 得 到 有 关 虚 拟 路 由 器 和 物理 路 由 
器 、 虚 拟 网 络 和 网 络 基层 的 更 一 般 的 信息 。 这 个 工具 集 组 成 数据 采集 器 模块 。 基 本 
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上 来 说 ， 这 个 模块 检索 有 关 域 0 和 域 Us 的 资源 分 配 和 资源 使 用 信息 。 使 用 这 个 信 
息 ， 原 型 就 可 知道 整个 网 络 的 资源 分 配 状态 。 

数据 采集 器 模块 由 几 个 组 件 组 成 ， 它 们 专用 于 从 不 同 测量 工具 处 采集 信息 ， 如 
图 3. 5 所 示 。 这 些 组 件 是 Xentop 采集 器 、Ifconfig 采集 器 、 内 存 采集 器 和 延迟 采集 
器 。 每 个 组 件 负责 获取 一 个 测量 数据 集 。 例 如 ，Xentop 采集 器 组 件 采 用 由 xentop 
工具 获取 的 信息 ， 包 括 域名 、 中 央 处 理 单元 (CPU) 和 内 存 使 用 、 每 个 VM 的 虚拟 
CPU 数 等 。Xentop 采集 器 模块 仅 在 域 0 中 执行 ， 并 提供 来 自 运行 在 物理 机 器 内 的 
所 有 域 的 非 侵入 型 (non-invasive) 信息 。 数 据 采 集 器 也 有 两 个 特殊 组 件 : 数据 采 
集 器 处 理 器 (负责 支持 与 Xen 原型 的 其 他 模块 的 通信 ) 和 数据 采集 器 主 组 件 ( 负 
责 调用 特定 测量 模块 并 合并 输出 ， 以 满足 请 求 ) 。 由 数据 采集 器 提供 的 各 服务 可 通 
过 XML 消息 请 求 访问 ， 且 应 答 也 是 一 条 XML 消息 。 


XML 消息 


数据 采集 器 





getMeasures( ) 


Main 


人 


getMea getMea getMea — getMea 
sures() sures() sures() sures() 


\ 
Xento 内 存 Ifconfig || 延迟 
Be | 


图 3.5 数据 采集 器 架构 : 主 模块 将 请 求 发 送 到 特定 监测 模块 ， 之 后 将 获得 的 
数据 转发 到 处 理 这 些 数据 的 处 理 器 


3.1.3 Xen 拓扑 


拓扑 模块 发 现 物理 网 络 拓扑 和 虚拟 网 络 拓扑 。 这 个 模块 使 用 Nmap 安全 性 扫描 
器 [WOL 02] 探测 每 个 网 元 的 所 有 邻居 2 。 拓 扑 模块 有 三 个 组 件 : 扫描 邻居 、 拓 
扑 合并 和 节点 合并 。 

扫描 邻居 组 件 负责 发 现 一 个 给 定 网 元 的 所 有 邻居 。 物 理 网 元 和 虚拟 网 元 都 运行 
这 个 组 件 。 邻 居 发 现 使 用 Nmap 工具 ， 它 探测 网 元 每 个 网 络 接口 的 IP 范围。 这 里 
将 对 探测 做 出 响应 的 所 有 IP 地 址 添加 到 邻居 关系 列表 。 此 后 ， 就 拥有 了 网 元 的 所 
有 邻居 ， 它 们 由 所 有 网 络 接口 连接 。 邻 居 关 系 信息 有 邻居 的 TP 地 址 和 MAC 地 址 以 





O 术语 “邻居 ” 意 指 通过 网 元 的 网 络 接口 之 一 有 直接 相互 连接 的 那些 节点 。 
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及 链 路 的 延迟 。 在 发 现 所 有 网 络 接口 的 邻居 之 后 ， 该 组 件 创建 邻居 关系 列表 ， 并 将 
之 通过 XML 消息 传递 到 节点 合并 组 件 ， 如 图 3.6 所 示 。 


邻居 A ia 邻居 C 








运行 Nmap 的 节点 





图 3.6 扫描 邻居 组 件 : 使 用 Nmap 工具 探测 网 元 的 所 有 接口 ， 由 此 将 对 这 些 探测 
做 出 响应 的 各 节点 添加 到 邻居 关系 列表 


节点 合并 组 件 运 行 在 网 络 的 每 个 物理 单元 上 。 这 个 组 件 目 标 是 得 到 这 个 单元 在 
物理 网 络 和 虚拟 网 络 中 的 邻居 的 信息 。 拓 扑 合 并 组 件 调 用 节点 合并 组 件 ， 该 组 件 有 
三 项 任务 。 第 一 项 任务 是 发 现 网 元 的 物理 邻居 。 第 二 项 任务 是 发 现 运行 在 这 个 物理 
网 元 之 上 每 个 网 元 的 所 有 邻居 。 这 两 个 发 现 规程 都 使 用 扫描 组 件 。 前 两 项 任务 是 同 
时 运行 的 ， 原因 是 它们 之 间 没 有 依赖 关系 。 节 点 合并 组 件 的 最 后 一 项 任务 是 合并 信 
息 。 合 并 由 物理 网 元 的 邻居 关系 信息 和 虚拟 网 元 〈 带 有 其 各 邻居 ) 的 一 个 列表 组 
成 。 该 模块 将 合并 信息 返回 到 控制 器 ， 后 者 使 用 XML 格式 的 消息 运行 拓扑 合并 
组 件 。 

VMS 有 物理 网 络 的 注册 节点 的 一 个 列表 ， 但 没有 有 关 这 些 节 点 间 互 联 关 系 的 
信息 。 拓 扑 模块 提供 互联 信息 。 这 个 模块 询问 注册 节点 列表 中 每 个 物理 节点 ， 就 物 
理 单元 和 虚拟 单元 的 互联 信息 发 出 询问 。 在 接收 到 所 有 的 互联 信息 之 后 ， 拓 扑 合并 
组 件 计 算 每 个 网 络 的 拓扑 。 将 网 络 拓扑 建 模 为 一 个 图 。 因 此 ， 拓 扑 合 并 组 件 将 一 个 
图 表示 返回 给 VMS。 该 图 表示 为 每 个 网 络 的 邻接 和 矩阵。 因此， 拓扑 模块 使 VMS 可 
提供 物理 网 络 和 虚拟 网 络 的 当前 拓扑 。 


3.1.4 虚拟 化 硬件 改进 


虚拟 化 环境 的 使 用 带 来 性 能 缺陷 ， 特 别 对 网 络 虚拟 化 更 是 如 此 : 虚拟 化 层 引 入 
额外 负担 ， 因 为 它 需 要 针对 VM 复 用 实施 额外 的 任务 。 这 项 额外 负担 对 IO 密集 负 
载 是 至 关 重 要 的 [FER 10], KE NVO 利用 率 的 重要 情形 之 一 是 网 络 密集 环境 。 在 
这 种 情形 中 ， 要 求 提 供 高 的 吞吐 量 和 低 时 延 。 此 外 ， 每 个 VM 的 网 络 流量 必须 是 相 
互 隔 离 的 。 

WS, VO 虚拟 化 处 在 虚拟 机 监测 器 (VMM) 的 职责 之 下 ， 它 必须 复 用 外 发 
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数据 流 和 解 复 用 到 达 数 据 流 。 就 网 络 虚 拟 化 而 言 ，VMM 必须 共享 链 路 ， 控 制 其 访 
问 并 将 到 达 报 文 复 用 到 合适 的 虚拟 网 络 接口 。 就 所 有 VM 来 说 ， 这 些 任务 必须 是 公 
平 的 。 为 改进 整体 网 络 虚拟 化 性 能 ， 人 们 已 经 提出 几 项 技术 : 设备 的 直接 指派 
[INT 12] 、 多 队列 设备 [INT 11b] 和 单 Root L/O 虚拟 化 (SR-IOV) [INT lla], 
在 下 面 各 节 简 短 地 讨论 这 些 技术 ， 也 讨论 在 原型 中 集成 这 些 新 技术 所 做 的 当前 研究 
工作 。 

下 面 介 绍 新 的 Uo 虚拟 化 技术 。 

1) 直接 WO 访问 : 直接 10 技术 是 由 现代 主板 芯片 集 提 供 的 一 项 新 功能 ， 安 
全 地 支持 来 自 VM 的 直接 设备 访问 。 这 项 技术 支持 到 不 同 内存 区 的 设备 直接 内 存 访 
la] (DMA) 。 因 此 ， 它 为 一 台 设 备 提 供 将 数据 直接 传递 到 一 个 VM 的 能 力 ， 而 不 需 
要 VMM (或 hbypervisor) 介入 。 内 存 访 问 由 主板 的 芯片 集 辅助 执行 ， 芯 片 集 和 截获 设 
备 内 存 访问 ， 并 利用 1/0 页 表 ， 验 证 是 否 人 允许 访问 ， 且 将 要 求 的 地 址 翻译 到 物理 内 
存 地 址 。 但 是 ， 这 个 机 制 具有 扩展 性 问题 ， 原 因 是 一 个 物理 设备 是 不 能 在 几 个 VM 
之 间 共 享 的 。 它 可 被 指派 到 一 个 VM。 

2) 多 队列 : VMM (或 hypervisor) 有 分 类 报 文 的 一 项 重要 任务 。 报 文 分 类 诱 
发 大 量 VMM 处 理 额 外 负担 ， 因 为 它 要 求 VMM 定义 所 有 到 达 报 文 的 目的 VM， 并 复 
用 所 有 外 发 报 文 。 现 代 网 络 接口 卡 (NIC) 解决 这 个 问题 的 方法 是 ， 拥 有 多 个 队 
列 ， 并 由 队列 完成 报 文 分 类 。 为 完成 这 项 功能 ，NIC 使 用 某 个 模式 [虚拟 局 域 网 
(VLAN) 标签 或 MAC 目的 地 址 ] 对 一 条 报 文 分 类 ， 并 将 之 推 人 适当 的 队列 。 可 向 
VM 指派 一 个 或 多 个 队列 。 因 此 ， 它 们 的 流量 是 相互 隔离 的 。 

3) SR-IOV: SR-IOV 标准 支持 在 几 个 VM Ja] PCI 快速 设备 (如 各 NIC) 的 共 
享 ， 并 好 像 它们 是 原生 的 一 样 访问 这 些 设备 。 该 标准 提供 在 数据 传递 中 旁 路 VMM 
介入 的 一 种 方式 。 这 种 标准 方法 也 为 将 一 个 NIC 共享 到 几 个 VM 定义 了 一 种 方法 。 
使 用 多 队列 和 直接 VO 的 NIC 访问 遵循 SR-IOV 标准 。 

Xen 版 本 4. 0. 0 具有 与 新 VO 虚拟 化 技术 有 关 的 几 项 新 功能 。 在 原型 中 使 用 了 
这 个 版 本 的 Xen。 一 个 重要 问题 是 管理 域内 核 ， 即 域 0 内 核 。 需 要 支持 配置 设备 和 
hypervisor 的 新 功能 的 一 个 兼容 内 核 ， 这 使 环境 具备 完全 功能 。 用 Xen 4.0.0 hyper- 
visor 正常 工作 的 最 新 内 核 是 2. 6. 32 Linux AK (稳定 版 本 ) 。 几 项 新 功能 仍然 处 在 
开发 之 下 ， 目 前 还 不 支持 。 当 前 ， 为 一 个 VM 赋予 带 直 接 访问 的 一 台 设 备 的 完全 控 
制 ， 是 可 能 的 。 创 建 SR-IOYV 规格 的 虚拟 功能 ( 用 来 访问 PCI 快速 设备 ) 也 是 可 能 
的 ， 但 将 这 些 虚 拟 功能 的 控制 赋予 一 个 VM 是 不 可 能 的 。 


3.2 基于 OpenFlow 的 原型 


基于 OpenFlow 的 原型 是 建立 在 运行 于 NOX! 控制 器 之 上 的 一 个 应 用 集 之 上 的 
[ GUD 08]。NOX 是 一 个 OpenFlow 控制 器 ， 它 在 OpenFlow 交换 机 中 配置 和 管理 流 。 
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所 开发 的 NOX 应 用 实现 5 个 必 备 原 语 : 实例 化 流 ( 实例 化 原 语 ) 、 删 除 流 ( 删除 
原 语 ) 、 迁 移 流 (迁移 原 语 ) 、 管 理 和 改变 流 (设置 原 语 ) 、 网 络 监测 和 拓扑 发 现 
(监测 原 语 ) 以 及 在 网 络 中 避免 环 路 的 一 项 功能 。 也 存在 一 个 Web 服务 接口 ， 将 5 
个 原 语 提供 给 引导 系统 。 

OpenFlow 原型 架构 如 图 3.7 所 示 。 该 原型 完成 引导 系统 的 原 语 所 定义 的 传 感 
器 和 执行 器 。 执 行 器 是 流 管 理 圳 引导 平面 接口 
和 流 迁 移 应 用 。 流 管理 器 应 用 提 
供 实例 化 /删除 /设置 原 语 。 流 管 


理 器 应 用 在 其 他 NOX 应 用 和 ele 
OpenFlow 命令 之 间 实 现 一 个 接 FA 
RIR 






生成 树 应 用 
Wed 服 务 器 应 用 
流 管理 器 应 用 


口 。 这 个 应 用 负责 添加 、 修 改 和 
删除 流 。 流 管理 器 应 用 接收 一 条 
流 操 作 请 求 ， 并 将 之 翻译 为 一 条 
OpenFlow 命令 。 另 一 个 执行 器 是 
流 迁 移 应 用 ， 它 实现 迁移 原 语 。 
流 迁移 在 无 报 文 丢失 的 情况 下 将 
一 条 流 从 一 条 路 径 迁 移 到 另 一 条 
路 径 。 统 计 和 发 现 应 用 实现 原型 
中 的 传感器 。 这 两 个 应 用 满足 监 
测 原 语 。 统 计 应 用 测量 网 络 ， 并 收集 有 关 交 换 机 的 统计 信息 。 这 项 发 现 〈Discovery ) 
应 用 发 现 网 络 拓扑 ， 并 构造 表示 网 络 的 一 幅 图 。 也 存在 生成 树 应 用 ， 可 避免 网 络 中 
环 路 的 产生 和 不 必要 的 广播 重 传 。 

另外 ， 为 将 网 络 分 片 成 几 个 虚拟 网 络 ， 我 们 使 用 一 个 工具 ， 它 支持 几 个 NOX 
控制 器 并 行 运行 。 称 为 FlowVisor [SHE 10] 的 这 个 工具 控制 网 络 资源 共享 ， 如 带 
宽 、 控 制 器 看 到 的 拓扑 、 每 个 共享 的 流量 、 交 换 机 CPU 使 用 情况 和 流 表 。FlowVi- 
sor 实现 设置 原 语 ， 配 置 每 个 虚拟 网 络 的 参数 。 

下 面 各 节 描 述 为 网 络 原型 开发 和 修改 的 各 项 应 用 。3. 2. 1 节 给 出 FlowVisor T. 
具 ， 它 允许 网 络 资源 在 NOX 控制 咒 间 的 共享 。3. 2. 2 节 给 出 迁移 应 用 ， 开 发 该 应 
用 是 为 了 以 无 报 文 丢失 地 迁移 流 路 径 。3. 2. 3 节 给 出 统计 应 用 ， 给 出 从 网 络 和 交换 
机 获取 的 统计 和 信息 。3. 2. 4 节 描 述 发 现 应 用 ， 它 发 现 网 络 拓扑 并 构造 网 络 的 一 个 
图 表示 。 最 后 ，3. 2. 5 节 给 出 生成 树 应 用 ， 它 避免 网 络 中 发 生 环 路 和 不 必要 的 广播 
消息 。 


3.2.1 FlowVisor 


FlowVisor [SHE 10] 是 一 种 特殊 类 型 的 OpenFlow 控制 器 。 它 作为 网 络 设 备 和 
其 他 控制 器 (如 NOX 控制 器 ) 之 间 的 一 个 透明 代理 。FlowVisor 的 主要 功能 是 对 网 


OpenFlow 交 换 机 


图 3.7 基于 OpenFlow 的 原型 架构 


第 3 章 虚拟 网 元 的 性 能 改进 和 控制 69 


络 实施 分 片 ， 并 以 一 种 可 控 的 和 隔离 的 方式 共享 网 络 资源 。 

如 图 3.8 Pras (摘自 Sherwood 等 [SHE 10]), FlowVisor 截获 由 寄宿 (guest) 
控制 器 发 送 的 OpenFlow 消息 。 之 后 ，FlowVisor 基于 用 户 分 片 策略 (2) ， 透 明 地 修 
改 消息 ,将 到 网 络 的 一 个 分 配 的 控制 实施 定 界 。 如 果 消 息 匹 配 分 片 策略 ， 则 
FlowVisor 仅 将 消息 从 交换 机 转发 到 寄宿 者 (guests) 。FlowVisor 对 网 络 分 片 ， 保 持 
各 分 片 是 相互 隔离 的 。 






OpenFlow OpenFlow 
控制 器 A 控制 器 B 


4 


FlowVisor 





$0) 





x a F 
(4) (3) 
OpenFlow 
交换 机 


图 3.8 FlowVisor 操作 


FlowVisor: 
(1) 截获 由 寄宿 控制 器 发 送 的 OpenFlow 消息 (2) 验证 用 户 分 片 策略 (3) 修改 消息 ， 对 
网 络 的 一 个 分 片 控制 实施 定 界 (4) 将 消息 从 交换 机 转发 到 寄宿 者 ， 如 果 消 息 匹 配 分 片 策略 


FlowVisor 可 对 网 络 实施 虚拟 化 ， 方 法 是 将 交换 机 的 资源 分 片 到 几 个 控制 器 间 。 
另外 ，FlowVisor 支持 创建 FlowVisors 的 层次 结构 ， 修 改 网 络 架构 ， 如 图 3.9 所 示 
(摘自 Sherwood 等 [SHE 10]) 。 在 这 种 情形 中 ， 一 个 FlowVisor 实例 ( FlowVisor 2) 
并 行 地 虚拟 化 几 个 交换 机 (交换 机 1 ~4) ， 且 FlowVisor 1 递归 地 分 片 虚拟 分 片 ， 这 
由 FlowVisor 2 和 3 确定 。 为 在 控制 器 间 将 网 络 分 片 ，FlowVisor 将 共享 的 重点 放 在 5 
项 网 络 资源 上 : 带宽 隔离 、 拓 扑 发 现 、 流 量 工程 、 设 备 CPU 监测 和 转发 表 控 制 。 
例如 ， 带 宽 隔 离 是 通过 在 交换 机 上 使 用 不 同 优先 级 队列 来 保障 的 。 一 个 队列 是 与 其 
他 队列 隔离 的 。 一 条 流 中 的 所 有 报 文 被 标记 为 相同 的 标识 符 ， 之 后 被 映射 到 8 个 优 
先 级 队列 之 一 。 基 于 3 个 不 同 标识 符 ， 对 流 实施 分 类 : VLAN 优先 级 码 点 (PCP) 、 
IP 服务 类 型 (ToS) 和 OpenFlow 服务 质量 (QoS ) 。 默 认 的 是 VLAN PCP。 重 要 的 
是 指出 : 要 保障 的 是 最 小 带宽 。 
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图 3.9  FlowVisor 层次 结构 : FlowVisor 1 递归 地 分 片 由 FlowVisor 2 和 3 定义 的 虚拟 分 片 


3.2.2 OpenFlow 迁移 


流 迁 移 是 为 原型 开发 的 一 项 NOX [GUD 08] 应 用 ， 它 在 源 和 目的 OpenFlow 交 
换 机 之 间 定 义 一 条 新 的 路 径 ， Mc 在 这 个 规程 中 没 
有 报 文 丢 失 。 为 迁移 一 条 流 ， 流 迁移 应 用 以 一 个 交换 机 列表 作为 参数 。 这 个 列表 定 
义 流 必须 经 过 的 新 路 径 由 交换 机 的 一 se 为 计算 从 源 到 目的 地 ( 包 
括 选中 的 交换 机 ) 的 最 短路 径 ， ERM- 一 个 广义 的 Dijkstra 算法 [MOY 98]. 

流 迁 移 应 用 有 两 个 接口 : 一 个 是 与 Web 服务 器 应 用 的 接口 (通过 该 接口 ， 改 
变 控制 参数 ) ， P (应 用 通过 它 发 送 流 配置 命令 ) B 3.10 形象 
地 给 出 流 迁 移 规 程 的 一 个 例子 。 最 初 ， 源 通过 路 径 1 将 报 文 发 送 到 目的 地 ， 该 路 径 
由 节点 A-F-E-D 组 成 。 定 义 了 从 交换 机 A 到 D 的 一 条 新 流 ， 要 求 是 它 必 须 通过 交 
换 机 A、B 和 D， 即 图 中 暗 灰色 节点 。A、B 和 D AEM A BD 的 一 条 完整 路 径 。 
因此 ， 流 迁移 应 用 计算 从 源 到 目的 交换 机 的 一 条 完整 路 径 ， 其 中 使 用 Dijkstra 算 
法 ， 最 小 化 新 路 径 中 的 跳 数 。 依 据 该 算法 ， 节 点 C 必须 被 包括 在 路 径 中 。 在 定义 
组 成 完整 路 径 的 所 有 节点 之 后 ， 应 用 在 相反 方向 的 交换 机 中 配置 该 流 ， 即 从 最 接近 





图 3.10 流 迁移 应 用 的 操作 
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目的 交换 机 到 最 远 交 换 机 配置 该 流 。 因 为 从 目的 地 到 源 的 所 有 路 径 已 经 配置 ， 例 外 
是 源 计算 机 到 交换 机 A 的 链 路 ， 这 是 要 被 改变 的 最 后 一 条 链 路 ， 这 样 就 避免 了 报 
MER. 


3.2.3 OpenFlow 统计 


统计 应 用 是 另 一 项 NOX 应 用 ， 它 是 为 采集 OpenFlow 交换 机 信息 并 将 之 转换 为 
XML 消息 而 开发 的 。 统 计 应 用 将 命令 发 送 到 OpenFlow 交换 式 网 络 ， 查 询 每 台 交 换 
机 ， 查 询 它 的 统计 和 其 他 信息 。 每 台 交 换 机 接收 一 条 请 求 ， 将 其 描述 、 数 据 路 径 、 
表 、 汇 聚 流 和 流 信息 报告 给 NOX 控制 器 。 采 用 一 条 合适 的 OpenFlow 协议 命令 ， 得 
到 每 种 信息 。 统 计 应 用 与 Web 服务 器 和 交换 机 统计 应 用 有 接口 。Web 服务 器 应 用 
提供 统计 应 用 和 一 个 超 文 本 传输 协议 (HTTP) 客户 端 之 间 的 一 个 接口 。 客 户 端 可 
以 是 一 个 用 户 界 面 或 另 一 项 应 用 。 交 换 机 统计 应 用 负责 将 OpenFlow 命令 发 送 到 交 
换 机 ， 并 处 理 响应 。 出 于 简单 性 ， 将 交换 机 统计 应 用 和 统计 应 用 这 两 者 统称 为 统计 
应 用 。 

统计 应 用 周期 性 地 从 OpenFlow 交换 式 网 络 采集 信息 。 无 论 何 时 接收 到 一 条 
stats request ( 统计 请 求 ) ， 统 计 应 用 都 以 带 有 当前 可 用 信息 的 一 条 XML 消息 做 出 
响应 。 由 统计 应 用 返回 的 这 条 XML 消息 包含 注册 在 NOX 控制 器 上 每 台 交 换 机 的 信 
E. XML 消息 以 一 条 名 为 openflowstats 的 根 标签 开始 ， 为 每 台 注册 的 交换 机 都 有 一 
个 datapath 标签 。 在 每 个 datapath 标签 内 ， 有 交换 机 标识 符号 (dpid) 、 交 换 机 
MAC 地 址 (dp. mac). 和 包含 从 交换 机 接收 到 的 信息 与 统计 的 特定 标签 。 这 些 特定 
标签 和 内 部 结构 存储 交换 机 信息 和 统计 ， 如 交换 机 IP 地 址 (ip) 、 硬 件 描述 (hw. 
desc) 、 交 换 机 实现 表 数 (n_tables) 、 发 送 和 接收 的 报 文 、 流 计数 (flow, count) 和 
流 优先 级 (priority) 。 


3.2.4 OpenFlow 发 现 


发 现 应 用 是 一 个 修正 版 本 的 默认 NOX 应 用 。 首 先 ， 使 这 个 应 用 与 任何 Open- 
Flow 设备 兼容 ， 同 样 为 Web 服务 器 应 用 开发 了 一 个 接口 。 发 现 应 用 也 得 到 物理 网 
络 和 虚拟 网 络 的 拓扑 。 

基本 上 来 说 ， 发 现 应 用 实现 链 路 层 发 现 协议 (LLDP) [IEE 05]. 。 这 个 协议 使 
各 节点 能 够 传输 有 关 网 络 设备 的 能 力 和 当前 状态 的 信息 。 在 IEEE 802 LAN 站 的 协 
议 栈 中 ，LLDP 实现 是 可 选 的 。LLDP 帧 格式 如 图 3. 11 所 示 。LLDP 帧 将 设备 信息 
存储 在 类 型 一 长 度 一 值 (TLV) 结构 之 中 。 之 后 ， 发 现 应 用 为 一 台 给 定 交 换 机 的 所 
有 端口 创建 一 个 LLDP 帧 。 交 换 机 通过 其 端口 传播 那些 帧 。 在 接 到 第 一 条 LLDP Wi 
时 ， 交 换 机 不 知道 那 条 帧 的 转发 规则 。 交 换 机 将 该 帧 转发 给 控制 器 ， 由 之 分 析 帧 的 
内 容 。 在 接收 到 该 帧 之 后 ， 控 制 器 请 求 发 现 应 用 的 运行 实例 处 理 这 条 帧 。 由 此 ， 该 
应 用 分 析 是 哪 台 交换 机 接收 到 该 帧 、 从 哪个 端口 接收 到 该 帧 、 是 哪 台 交换 机 发 送 该 
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帧 和 要 从 哪个 端口 发 送 该 帧 。 采 用 这 个 信息 ， 该 应 用 创建 带 有 源 交 换 机 、 源 端口 、 
目的 交换 机 和 目的 端口 的 一 个 数据 结构 。 ERA 吉 构 识别 出 一 条 链 路 以 及 刻画 网 
络 拓扑 的 一 个 网 络 所 有 链 路 的 聚集 。 


LLDP 








DA SA 以 太 网 类 型 indic RR 
LLDP 组 播 地 址 | MAC 地 址 88-CC LLDPDU | IES | 
6H 6B 2B 1500 B +B 


图 3.11 IEEE 802.3 的 LLDP 帧 格式 


修改 了 默认 发 现 NOX 应 用 的 算法 ， 目 的 是 保障 在 类 型 -1 OpenFlow 交换 机 上 拓 
扑 发 现 规程 的 正确 性 。 在 类 型 -0 的 交换 机 (OpenFlow 交换 机 的 最 简单 模型 ) 上 ， 
仅 当 控制 器 已 经 为 那 条 帧 配置 一 条 流 时 ， 该 帧 才 被 转发 。 如 果 没 有 配置 的 流 ， 该 由 
就 被 丢弃 。 但 是 ， 即 使 控制 器 没有 配置 特定 规则 ， 类 型 -1 交换 机 也 处 理 一 条 流 的 
流量 ， 即 默认 情况 下 ， 初 始 报 文 并 不 被 自动 地 丢弃 。 这 个 事实 导致 网 络 拓扑 的 一 个 
不 一 致 表示 。 

假定 从 交换 机 A 发 送 到 交换 机 B 的 一 条 LLDP。 采 用 默认 算法 ， 在 处 理 帧 之 
后 ,控制 器 将 不 会 发 送 丢 弃 该 帧 的 命令 。 在 这 种 情形 中 ，B 会 不 正确 地 将 这 条 LL- 
DP 帧 转发 到 连接 到 B 的 其 他 交换 机 。 假 定 交换 机 B 和 C 是 直接 连接 的 , 但 C 没有 
直接 连接 到 A。 在 这 种 情形 中 ，B LLDP 帧 转发 到 C， 由 此 控制 器 将 错误 地 识 
别 A 和 C 之 间 的 一 条 链 路 。 结 果 是 ， 就 假设 了 一 个 错误 的 拓扑 。 为 修正 这 个 问题 ， 
修正 了 默认 算法 ， pui di ipia 令 发 送 到 各 台 交 换 机 。 这 两 个 算法 之 间 的 
差异 如 图 3. 12 所 示 。 

图 3. 12a 代表 默认 发 现 算法 。 所 有 交换 机 都 是 类 型 - 1 的 。 在 这 个 例子 中 : 

1) 交换 机 A 发 送 一 条 LLDP 帧 到 交换 机 B. 

2) 在 接收 到 这 条 帧 之 后 ，B 将 之 发 送 到 控制 器 。 之 后 控制 器 标示 出 。 

3) 在 A 和 B 之 间 存 在 一 条 链 路 。 控 制 器 不 发 送 一 条 丢弃 命令 到 B 

4) B 将 LLDP 帧 转发 到 Co ZHL C 接收 该 帧 。 

5) 将 之 发 送 到 控制 器 。 之 后 ， 控 制 器 不 正确 地 假定 在 A FIC 之 间 存 在 一 条 链 
路 。 这 个 算法 的 修正 版 本 如 图 3. 12b 所 示 。 前 两 步 与 默认 算法 是 相同 的 。 区 别 在 
于 ， 在 此 之 后 ， 控 制 器 将 丢弃 命令 发 送 到 B, Hie B 丢弃 LLDP 帧 ， 而 不 是 将 之 转 
发 给 C。 

默认 应 用 仅 提 供 物 理 网 络 拓扑 ， 且 也 需要 有 关 原 型 中 虚拟 网 络 的 信息 。 为 取得 
这 个 目标 ， 修 正 的 发 现 应 用 接收 虚拟 网 络 的 定义 ， 如 一 个 VLAN 标识 符 或 一 个 IP 
范围 ， 之 后 它 提 供 带 有 虚拟 网 络 拓扑 的 一 个 结构 ， 它 由 为 那个 虚拟 网 络 转发 流量 的 
所 有 交换 机 组 成 。 
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b) 


图 3.12 默认 和 修正 发 现 算法 之 行为 的 例子 : 这 两 种 机 制 的 前 两 步 是 相同 的 ， 但 对 于 修正 算法 ， 
控制 器 将 丢弃 命令 发 送 到 交换 机 B (丢弃 LLDP 帧 ) ， 而 不 是 将 之 转发 到 交换 机 C 
a) 默认 算法 b) 修正 算法 


3.2.5 OpenFlow 生成 树 


一 个 源 一 目的 对 之 间 存 在 多 条 路 径 是 不 同 网 络 拓扑 的 一 个 共性 特征 。 这 些 
宛 余 路 径 增 加 网 络 可 靠 性 ， 但 在 以 太 网 中 可 导致 广播 规程 中 的 错误 。 事 实 上 ， 
如 果 连 接 到 一 台 交换 机 的 一 个 节点 广播 一 个 帧 ， 则 除了 到 达 端 口外 ， 交 换 机 将 
这 个 帧 转发 到 所 有 其 他 端口 。 如 果 网 络 有 元 余 路 径 ， 则 该 帧 将 由 所 有 交换 机 再 
次 广播 ， 直 到 它 到 达 源 交换 机 。 例 如 ， 如 果 节 点 B 发 送 一 条 广播 消息 ， 则 A 
和 C 将 接收 并 转发 该 消息 。 当 节点 A 接收 到 由 节点 C 转发 的 该 消息 时 ， 它 将 
再 次 转发 该 消息 ， 且 B 和 C 都 将 接收 并 转发 该 消息 。 因 为 交换 机 B 不 能 识别 
该 帧 已 经 被 转发 ， 所 以 它 再 次 转发 该 帧 。 因 此 ， 由 于 网 络 拓 扑 中 的 一 个 环 路 ， 
则 该 帧 将 被 不 断 地 转发 。 使 用 生成 树 算法 [CIB 11] 控制 物理 拓扑 ， 并 在 Open- 
Flow 原型 上 避免 这 些 环 路 。 在 不 产生 环 路 的 情况 下 ， 这 个 算法 为 广播 帧 生成 一 
个 拓扑。 
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生成 树 算法 作为 一 个 NOX 应 用 运行 。 该 算法 构造 映射 网 络 拓扑 的 一 个 图 。 图 
的 每 个 节点 和 每 条 边 分 别 代 表 一 台 交 换 机 和 一 条 链 路 。 该 算法 分 析 这 个 图 ， 并 构造 
包含 图 的 所 有 节点 和 被 选中 边 的 一 棵 树 ， 如 图 3. 13 所 示 。 禁 止 生成 树 之 外 的 所 有 
链 路 ( 边 )， 意 味 着 这 些 被 禁止 的 链 路 将 不 会 转发 广播 消息 。 这 种 机 制 防止 各 帧 穿 
越 被 禁止 的 链 路 、 发 生 环 路 和 不 必要 的 广播 流量 重 传 。 


EN 
PL A P. 4 Ee SS 


x : 
MM YS BBWS 


图 3. 13 一 个 网 络 拓扑 及 其 相应 的 生成 树 ， 假 定 A 是 生成 树 的 根 


生成 树 算法 使 用 发 现 应 用 所 提供 的 拓扑 信息 工作 过 程 如 下 。 首 先 ， 该 算法 依据 
交换 机 (节点) 的 标识 符 (1ds) 对 它们 排序 。 之 后 ， 它 选择 具有 最 低 标识 符 的 交 
换 机 作为 生成 树 的 根 。 之 后 ， 生 成 树 算法 检查 连接 到 根 的 交换 机 ， 并 将 这 些 交 换 机 
标记 为 已 访问 ， 这 意味 着 该 节点 以 及 这 些 节点 和 根 之 间 的 链 路 也 是 生成 树 的 组 成 部 
分 。 最 后 ， 它 检查 连接 到 已 被 访问 交换 机 的 各 交换 机 。 如 果 这 些 交 换 机 中 的 任何 交 
换 机 被 标记 为 已 访问 ， 则 这 些 交 换 机 之 间 的 链 路 就 不 构成 生成 树 。 否 则 ， 该 算法 将 
节点 和 相应 链 路 插 和 人 到 生成 树 中 。 它 使 用 宽度 优先 搜索 算法 [ZHO 06]。 如 果 从 一 
个 特定 节点 (如 nl1) 开始 ， 则 在 搜索 距离 nl 的 所 有 M + 1 跳 节 点 之 前 ， 宽 度 优 先 
搜索 算法 搜索 距离 nl 的 所 有 M 跳 节 点 。 例 如 ， 在 图 3. 13 中 ， 如 果 nl ==B， 则 在 
CMH ZHI, 该 算法 搜索 D 和 下 。 

周期 性 地 运行 生成 树 算 法 ， 以 保持 生成 树 处 于 最 新 状态 。 将 一 台新 交换 机 插入 
到 控制 器 ， 要 求生 成 树 禁 止 这 人 台 交 换 机 的 所 有 端口 ， 直 到 生成 树 算法 分 析 图 并 将 新 
交换 机 插入 到 生成 树 之 后 才 可 激活 这 些 端口 。 出 于 安全 考虑 ， a 个 最 小 时 间 量 之 
后 ， 生 成 树 应 用 激活 这 些 端口 以 确保 它们 可 由 发 现 应 用 识别 ， 且 结果 是 ， 被 包括 在 
网 络 拓扑 中 。 

当 一 台 交 换 机 接收 到 一 条 新 的 广播 数据 流 之 后 ， 它 将 帧 转发 到 控制 器 。 在 接收 
到 该 帧 之 后 ， 控 制 器 调用 生成 树 实例 分 析 广播 帧 被 接收 的 链 路 。 如 果 这 条 链 路 在 生 
成 树 中 ， 则 该 交换 机 处 理 并 转发 该 帧 。 和 否则 ， 应 用 丢弃 该 帧 。 当 接收 到 的 帧 是 一 条 
LLDP 帧 时 ， 处 理 和 转发 是 独立 于 源 链 路 发 生 的， 原因 是 发 现 应 用 使 用 那个 帧 来 发 
现 网 络 拓扑 。 同 样 ， 如 果 控 制 器 已 经 为 所 接收 的 被 广播 帧 在 交换 机 中 定义 一 条 规 
则 ， 则 交换 机 不 将 那个 帧 转发 到 控制 器 ， 而 是 依据 规则 处 理 该 帧 ， 即 使 链 路 不 在 生 
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成 树 中 也 是 这 样 。 
3.3 小 结 


本 章 描述 了 在 两 个 虚拟 化 工具 (Xen 和 OpenFlow) 上 实现 引导 平面 所 需 5 个 
BGA (实例 化 、 删 除 、 迁 移 、 监 测 和 设置 ) 的 必 备 改进 。 描 述 了 两 个 网 络 原型 。 
这 两 个 原型 都 由 能 够 感知 和 作用 于 虚拟 环境 的 网 元 组 成 。 

在 基于 Xen 的 原型 中 ,采集 有 关 环 境 信 息 的 模块 (如 Xentop 采集 器 、Ifconfig 
采集 器 、 延 迟 采 集 器 和 内 存 采 集 器 ) 都 是 传感器 。 也 存在 Xen 拓扑 模块 ， 它 们 支 
持 物 理 和 虚拟 网 络 拓扑 的 发 现 。 在 基于 OpenFlow 的 原型 中 ， 传 感 器 能 力 依赖 于 所 
开发 的 NOX 应 用 。 统 计 应 用 支持 控制 器 检索 有 关 每 台 OpenFlow 交换 机 的 状态 信 
息 ， 如 穿 过 交换 机 的 流 和 每 条 流 接收 到 的 报 文 数 。 发 现 应 用 发 现 网 络 拓扑 ， 生 成 树 
应 用 避免 不 必要 的 广播 流量 重 传 和 网 络 环 路 的 发 生 。 执 行 能 力 支持 控制 器 作用 于 网 
络 ， 并 实施 诸如 在 线 修改 单元 配置 和 改变 一 个 虚拟 拓扑 [在 迁移 (migrate). 原 语 
的 辅助 下 ] 等 任务 。 在 基于 Xen 的 原型 中 ， 一 个 经 修改 的 迁移 工具 支持 在 无 报 文 
丢失 的 情况 下 动态 重新 配置 虚拟 拓扑 。 在 基于 OpenFlow 的 原型 中 ， 流 迁移 应 用 也 
可 在 无 报 文 丢失 的 情况 下 修改 一 条 流 路 径 。 通 过 这 些 执行 咒 ， 引 导 平 面 可 动态 地 重 
新 组 织 网 络 拓扑 ， 以 确保 满足 用 户 的 需求 。 为 两 个 原型 开发 的 这 些 模块 和 应 用 是 引 
导 平 面 开发 的 基础 ， 这 在 第 4 章 中 讨论 。 
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第 4 音 语 境 感知 技术 的 最 新 状态 


Horizon 项 目的 目标 是 为 后 互联 网 (IP). 环境 构想 并 测试 一 种 新 的 架构 。 这 个 
后 IP 架构 采用 网 络 虚拟 化 ， 其 中 包括 一 个 引导 系统 。 这 样 一 个 引导 系统 的 设计 ， 
基于 多 代理 系统 (MAS), ， 引 导 系 统 做 出 智能 决策 。 

这 个 项 目的 主要 思路 是 开发 一 个 环境 ， 其 中 系统 的 每 个 单元 页 献 信息 ， 用 来 自 
动 化 地 更 新 控制 算法 ， Vie AA ni 这 会 影响 网 络 参 数 的 值 。 为 做 到 这 一 
点 ， 引 导 系 统 必 须 是 “自治 的 " 。 为 支持 带 有 这 种 自治 能 力 的 系统 做 出 决策 ， 调 研 
as 
平台 。 

本 章 描述 有 关 MAS 和 引导 系统 的 最 新 技术 状态 。4. 1 节 描 述 自治 系统 的 特点 。 
4.2 节 介 绍 MAS， 重 点 强调 它们 支持 引导 系统 的 特定 功能 。4. 3 节 和 4.4 节 描 述 满 
足 项 目 需求 的 代理 平台 ，4. 5 节 给 出 本 章 的 结论 。 


4.1 自治 系统 


一 个 自治 计算 系统 可 被 描述 为 这 样 一 个 系统 ， 它 感知 其 操作 环境 ， 并 对 那个 环 
境 上 系统 的 行为 进行 建 模 。 此 外 ， 它 对 发 生 的 变化 (无 论 环境 的 还 是 其 自己 的 行 
A) 采取 动作 。 一 个 目标 导向 的 系统 是 一 个 自治 系统 ， 它 独立 地 运作 ， 并 在 没有 
干预 的 情况 下 自己 取得 它 的 目标 ， 即 使 外 部 环境 发 生 改 变 也 是 如 此 。 一 个 自治 系统 
由 自 配 置 、 自 愈 、 自 优化 和 自 保 护 的 性 质 组 成 [IBM 06] 。 总 之 ， 自 治 系统 的 主要 
特点 是 自治 性 和 自发 性 。 


4.1.1 自治 系统 的 特点 


“自治 计算 ”的 概念 是 由 IBM [IBM 06] 提出 的 ， 它 定义 了 自治 计算 的 四 个 主 
要 功能 : 自 配 置 、 自 愈 、 自 优化 和 自 保 护 。 下 面 进行 描述 : 

1) 自 配置 是 调整 自己 适应 动态 变化 环境 的 能 力 (capacity) 。 当 引入 一 个 独立 
的 组 件 时 ， 它 无 颖 地 集成 到 其 周边 环境 ， 系 统 的 其 他 部 分 自动 地 调整 自己 适应 新 组 
件 的 存在 。 系 统 具 有 自 调整 的 能 力 ， 且 组 件 的 自动 配置 遵循 高 级 策略 。 

2) 自 愈 是 发 现 、 诊 断 并 采取 动作 防止 中 断 的 能 力 。 系 统 必须 能 够 维持 它 的 所 
有 功能 ， 可 能 处 在 降级 模式 ， 直 到 发 现 所 有 需要 的 资源 (进行 恢复 ) 为 止 。 它 应 
该 维护 有 关 配 置 系统 的 一 个 知识 库 ， 支 持 诊 断 推理 和 分 析 系 统 日 志 (或 来 自 其 他 
系统 的 日 志 ) ， 以 便 识别 故障 。 
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3) 自 优化 是 调整 资源 和 平衡 负载 的 能 力 ， 从 而 可 度量 资源 的 使 用 情况 。 采 用 
这 种 方式 ， 各 组 件 应 该 组 织 成 可 提升 性 能 和 效率 的 结构 ， 这 要 求 监测 环境 、 对 新 选 
项 进行 试验 并 进行 学 习 的 能 力 ， 以 便 改 进 性 能 优化 的 选择 。 

4) 自 保护 是 预料 、 监 测 、 识 别 和 防护 威胁 的 能 力 。 一 个 自治 系统 必须 监测 这 
些 状况 ， 并 避免 使 用 的 中 断 。 这 样 的 能 力 要 求 为 所 有 网 元 的 监测 和 保护 而 建立 机 制 
和 架构 。 


4.1.2 自治 系统 的 架构 和 操作 


一 个 自治 计算 系统 由 一 个 连接 的 自治 单元 集 组 成 。 每 个 单元 必须 包括 传感器 和 
执行 器 [STE 03 ] 。 系 统 目标 是 取得 由 四 个 主要 功能 组 成 的 一 个 控制 环 路 : 采用 传 
感 器 测量 获取 的 系统 性 能 监测 ， 将 传感器 测量 与 预期 的 比较 ， 如 果 系 统 行为 不 是 预 
期 行为 而 做 出 决策 ， 以 及 改变 系统 行为 的 动作 执行 。 

l. 自治 单元 的 架构 

图 4. 1 给 出 了 一 个 自治 单元 的 架构 [STE 03]. 


自治 单元 





自治 信号 通道 |) 


图 4.1 一 个 自治 单元 的 架构 


一 个 自治 单元 由 被 管 组 件 和 一 个 自治 管理 器 组 成 ， 后 者 包含 几 个 组 件 : 

1) 内 部 监测 器 观测 被 管 组 件 的 状态 ， 并 将 信息 传递 给 自 监 测 组 件 。 

2) 外 部 监测 器 观测 环境 的 状态 ， 并 将 这 个 状态 信息 从 环境 传递 到 自 监 测 
组 件 。 

3) 自 监测 器 估计 被 管 组 件 的 状态 ， 将 之 与 存储 于 一 个 知识 库 中 的 期 望 状态 比 
较 ， 之 后 得 到 被 管 组 件 之 期 望 状态 的 偏差 。 

4) 自 调 整 吉 支持 被 管 组 件 之 状态 的 调整 。 
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5) 心跳 监测 器 汇总 自治 实体 的 状态 ， 并 将 信息 传递 给 负责 自治 状态 控制 的 其 
他 实体 。 

图 4. 1 给 出 由 一 个 被 管 组 件 和 一 个 相应 的 自治 管理 器 组 成 的 自治 单元 。 自 治 管 
理 带 实现 所 需 的 自 监测 和 自 调整 能 力 。 一 个 内 部 监测 器 观测 被 管 组 件 的 状态 ， 并 
将 这 个 信息 传递 给 自 监测 器 进行 评估 并 采取 动作 。 将 测量 得 到 的 状态 与 在 一 个 知 
VE aA d 进行 比较 。 将 不 令 人 期 望 的 偏差 报告 给 自 调整 器 以 便 采 取 
动作 ， 这 会 导致 被 管 组 件 的 改变 。 类 伏地， 一 个 外 部 监测 需 通 过 一 个 自治 dia 
We oe FF nT fi 触发 内 部 变化 。 信号 信道 将 之 连接 到 其 他 自治 管 
ee A 
汇总 [STE 03], 

总 之 ， 一 个 自治 系统 由 一 个 运行 在 一 个 控制 环 路 中 的 自治 实体 集 组 成 ， 控 制 环 
路 确保 满足 “自我 〈self) ”性 质 。 

2. 自治 控制 环 路 

自治 系统 作为 控制 环 路 发 挥 作用 〈 见 图 4.2) [DOB 06]。 这 些 系统 从 各 种 源 
收集 信息 ， 源 包括 传统 网 络 传感器 和 报告 流 以 及 较 高 级 设备 和 用 户 语 境 。 分 析 这 些 
信息 ， 构 造 网 络 及 其 服务 演化 状态 的 一 个 模型 ， 从 而 可 做 出 自 适应 决策 。 通 过 网 络 
执行 这 些 决 策 ， 且 这 些 决 策 将 可 能 报告 给 用 户 或 管理 员 。 之 后 可 收集 这 些 决 策 的 影 
响 ， 通 知 下 一 个 控制 周期 。 


i ERN 
AAR 


/推理 
Le cer 


被 管 单元 ”一 ^o 界限 和 包 络 
Mete 一 一 执行 Me es 


fe 
aor 
k V Pa di 
决策 


per: 4 ixi 
假设 生成 


图 4.2 自治 控制 环 路 


为 实现 这 些 系统 〈 包 括 智能 代理 ) ， 人 们 提出 了 几 种 解决 方案 。 在 下 一 节 ， 给 
出 有 关 MAS 的 信息 。 
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42 采用 多 代理 系统 进行 引导 


协作 自治 代理 群 和 电信 网 络 特点 之 间 的 对 应 关系 是 在 电信 网 络 中 使 用 MAS 的 主 
要 动机 。MAS 的 研究 人 员 搜 索 具 有 挑战 性 的 研究 案例 ， 而 网 络 共 同体 搜索 一 些 传 统 
问题 的 新 的 解决 方案 ， 如 服务 质量 (QoS) 提供 和 避免 手工 进行 网 络 配置 [BUL 08] 。 

代理 通常 被 分 为 两 类 : “ 认 知 型 ”和 “反应 型 "; 它们 之 间 的 区 别 涉 及 设计 方法 
及 其 用 途 。Ferber [ FER 95] 以 问题 的 方式 汇总 了 这 种 差异 : 应 该 将 代理 理解 为 已 经 
是 智能 的 实体 (能够 由 它们 自己 解决 某 些 问 题 ) ， 还 是 应 该 将 它们 比 作 非 常 简单 的 反 
应 式 人 (可 直接 对 环境 变化 做 出 动作 )? 


4.2.1 代理 的 定义 


不 存在 “代理 ”概念 的 被 普遍 接受 的 定义 。 人 们 提出 的 定义 之 一 [FER 95, 
WOO 02] 是 ， 一 个 代理 是 一 个 物理 实体 或 虚拟 实体 。 它 : 

1) 能 够 作用 于 一 个 环境 。 

2) 可 与 其 他 代理 直接 通信 。 

3) 由 一 个 趋势 集 所 驱动 (就 其 目标 ， 或 满意 度 的 一 个 函数 ， 甚 至 就 生存 性 而 
言 的 ， 这 是 其 寻求 要 优化 的 ) 。 

4) 拥有 其 自己 的 资源 。 

5) 能 够 感知 (以 一 种 有 限 的 方式 感知 ) 其 环境 。 

6) 仅 有 这 个 环境 的 部 分 表示 ( 且 可 能 甚至 没有 任何 表示 )。 

7) 拥有 技能 并 提供 服务 。 

8) 可 能 再 生 本 身 。 

9) 倾向 于 取得 其 目标 ， 考 虑 到 可 用 资源 和 技能 。 它 感知 、 呈 现 其 他 代理 ， 并 
与 之 进行 通信 。 

因此 ， 一 个 代理 可 被 看 作 独 立 于 其 环境 能 够 思考 和 动作 的 一 个 实体 ， 目 标 是 满 
足 提前 设置 的 目标 (由 其 自己 或 由 一 个 外 部 实体 设置 的 ) 。 代 理 的 一 些 特点 如 下 : 

1) ZEHE (Ubiquity) ， 是 一 个 基于 代理 的 过 程 的 复杂 性 和 部 署 能 力 。 

2) 互联 ， 在 MAS 的 设计 中 扮演 一 个 至 关 重 要 的 角色 。 

3) 智能 ， 由 任务 的 复杂 度 来 度量 ， 在 没有 人 类 干预 的 情况 下 这 些 任务 可 自动 
化 或 被 授权 。 


4.2.2 代理 的 特点 


一 个 代理 可 以 是 共 置 的 〈situated) 、 自 治 的 、 预 测 式 的 、 反 应 式 的 或 社交 性 
的 ， 如 下 所 述 : 
1) 共 置 的 : 基于 从 环境 接收 的 感知 输入 ， 代 理 能 够 作用 于 其 环境 。 
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2) 自治 的 : 一 个 代理 应 该 在 没有 他 人 (人 类 或 代理 ) 干预 的 情况 下 ， 能 够 做 
出 动作 ， 并 控制 其 自己 的 动作 和 其 内 部 状态 。 

3) 预测 式 的 : 一 个 代理 必须 展示 出 预测 式 行 为 ， 同 时 能 够 在 正确 的 时 刻 采取 
主动 行为 。 

4) 反应 式 的 : 一 个 代理 必须 能 够 感知 其 环境 ， 并 在 要 求 的 时 间 内 形成 响应 。 

5) 社交 性 的 : 一 个 代理 必须 能 够 与 其 他 代理 ( 软件 或 人 类 ) 相互 作用 ， 实施 
它们 的 任务 ,或 辅助 其 他 代理 完成 其 任务 。 


4.2.3 WARE 


“ 认 知 代理 ”的 定义 不 是 唯一 的 。 在 参考 文献 [FER 95] 中 ， 存 在 一 个 “ 认 
知 学 派 ” 的 引用 。 遵 循 这 个 “学 派 ” 的 研究 人 员 关 注 于 这 样 的 代理 ,它们 可 为 其 
行为 做 出 计划 。 一 个 认 知 代理 由 一 个 知识 库 ， 包 括 实施 其 任务 以 及 与 其 他 代理 及 其 
环境 相互 作用 必要 的 所 有 信息 和 技能 。 换 名 话说 ， 认 知 代理 可 被 定义 为 “有 意图 
的 "。 它 们 拥有 目标 和 完成 这 些 目 标的 明确 计划 。Briot [BRI 01] 讨论 协商 代理 ， 
这 等 价 于 在 参考 文献 [FER 95] 中 定义 的 认 知 代理 。 


4.2.4 ”反应 式 代理 


虽然 认 知 代理 可 为 其 行为 构造 计划 ， 但 反应 式 代 理 仅 具 有 惯性 反应 能 力 。 反 应 
式 代理 被 定义 为 一 种 特殊 类 型 的 代理 ， 认 知 代理 是 一 般 情形 。 在 参考 文献 [ WOO 
02] 中 ， 反 应 式 代理 被 定义 为 不 参考 其 历史 而 做 出 反应 的 那些 代理 。 换 句 话 说 ， 
“它们 简单 地 直接 对 其 环境 做 出 反应 " 。 在 参考 文献 [BRI 01] 中 ， 作 者 将 反应 式 
代理 的 架构 描述 为 认 知 代理 的 反面 。 类 似 于 参考 文献 [ WOO 02] 中 提出 的 架构 ， 
在 参考 文献 [BRI 01] 中 讨论 的 架构 将 反应 式 代理 定义 为 ， 仅 基于 在 当前 执行 时 
间 中 收集 的 信息 ， 做 出 决策 的 那些 代理 。 


4.2.5 多 代理 系统 


一 个 MAS 由 一 个 计算 机 进程 集 组 成 ， 它 们 在 某 个 时 间 动 作 ， 共 享 共同 的 资源 ， 
并 相互 通信 。MAS 的 关键 点 是 代理 间 协 作 的 形式 化 (formalization ) 。 涉 及 代理 的 主 
要 问题 如 下 : 

1) 决策 。 官 员 决 策 的 机 制 是 什么 ? 代理 之 间 的 感知 、 表 示 和 动作 之 间 的 关系 
是 什么 ? 它们 如 何 分 解 它 们 的 目标 和 任务 ?它们 如 何 构造 表示 ? 

2) 控制 。 代 理 之 间 的 关系 是 什么 ?它们 是 如 何 协作 的 ? 这 种 协作 可 被 描述 为 
完成 一 项 共同 任务 的 协作 ， 或 具有 不 同 兴 趣 的 各 代理 之 间 的 协商 。 

3) 通信 。 它 们 相互 发 送 的 是 什么 种 类 的 消息 ? 这 些 消息 遵循 哪 种 语法 ?取决 
于 代理 之 间 协 作 的 类 型 ， 提 供 不 同 协议 。 

MAS 在 人 工 智 能 领域 中 有 应 用 ， 这 可 降低 问题 的 复杂 度 ， 方 法 是 将 问题 分 成 
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WH (subgroups) 。 一 个 智能 代理 被 关联 到 每 个 亚 组 ， 且 代理 之 间 信 息 的 交换 被 用 
来 实施 协作 [FER 95 ] 。 这 被 称 作 分 布 式 人 工 智 能 。 在 电信 中 多 代理 是 特别 有 用 
的 ， 如 电子 商务 ， 但 也 用 在 其 他 应 用 中 ， 如 交通 系统 和 机 器 人 技术 中 的 优化 。 

Ferber [FER 95] 将 一 个 MAS ( 见 图 4.3) 定义 为 由 如 下 部 分 组 成 

1) 一 个 环境 E, 

2) 一 个 对 象 集 0， 是 无 源 的 ， 并 可 与 环境 E 中 的 一 个 位 置 关联 。 它 们 可 由 代 
理 创建 、 收 集 、 修 改 和 销毁 。 

3) 一 个 代理 集 A， 代 表 活 跃 在 系统 中 的 实体 。 

4) 一 个 关系 集 R， 在 它们 之 间 绑 定 对 象 〈 且 因此 绑 定 代理 ) 。 

5) 一 个 操作 集 0， 支 持 集 A 中 的 哪个 代理 能 够 收集 、 产 生 、 消 费 、 转 换 和 操 
作 来 自 0 的 对 象 。 

6) 操作 员 ， 代 表 操 作 的 应 用 和 对 这 种 改变 尝试 的 外 部 世界 反应 。 








图 4.3 一 个 多 代理 系统 架构 : 代理 能 够 感知 和 作用 于 一 个 给 定 环 境 的 对 象 ， 
并 基于 其 目标 和 动机 相互 作用 而 实施 动作 


因此 一 个 MAS 由 运行 在 一 个 环境 中 的 几 个 代理 组 成 ， 它 们 相互 作用 。 这 些 代 
理 能 够 感知 并 作用 于 在 这 个 环境 中 可 被 检测 到 的 对 象 。 它 们 的 协作 使 它们 能 够 依据 
它们 相应 的 目标 和 动机 而 实施 动作 。 一 个 MAS 由 一 个 代理 集 组 成 ， 它 们 在 自己 间 
相互 作用 。 每 个 代理 由 如 下 组 件 组 成 : 

1) 收集 组 件 ， 使 代理 能 够 收集 有 关 其 环境 的 信息 。 

2) 相互 作用 组 件 ， 使 代理 与 其 他 代理 相互 作用 。 

3) 决策 组 件 ， 支 持 代 理 依据 它们 的 感知 做 出 决策 。 

4) 执行 组 件 ， 支 持 代 理 实施 它们 的 决策 。 


4.3 构建 自治 平台 的 选项 


未 来 的 后 IP 架构 应 该 是 语 境 感知 的 。 那 么 ， 完 成 这 种 功能 的 平台 包括 物理 的 


84 虚拟 网 络 一 一 下 一 代 互联 网 的 多 元 化 方法 





和 逻辑 的 传感器 〈 软 件 实体 、 网 络 组 件 和 软件 代理 ) ， 收 集 有 关 用 户 和 服务 的 在 席 
状态 (presence) 、 人 位置、 身份 和 概要 的 语 境 信息 。 典 型 的 语 境 感 知 软件 涉及 服务 
和 用 户 的 本 地 化 ， 依 据 用 户 行为 调用 服务 ， 为 服务 组 合 提供 信息 ， 有 利于 用 户 间 特 
定 通信 的 进行 ， 以 及 将 QoS 适 配 到 变化 的 环境 。 目 标 是 探索 语 境 感知 基础 设施 的 
类 型 ， 并 选择 最 佳 方式 将 智能 引入 由 一 个 智能 平面 和 一 个 引导 平面 组 成 的 平台 。 本 
节 描 述 什么 可 能 是 一 个 自治 平台 。 出 于 这 一 点 考虑 ， 分 析 了 在 Horizon 项 目 中 可 能 
有 用 的 三 个 平台 : Ginkgo 平台 、DimaX 平台 和 Java 代理 开发 框架 (JADE) FA. 


4.3.1 Ginkgo 


Ginkgo 技术 为 自治 联网 应 用 提供 支持 ， 它 采用 分 布 在 网 间 的 网 元 (NE) 中 的 
智能 代理 。 在 自治 联网 应 用 中 ，Ginkgo 智能 代理 扮演 一 个 双重 角色 : 实时 地 向 知 
识 平面 提供 应 用 需要 的 信息 ， 使 用 知识 平面 中 的 分 布 式 知识 实时 地 管理 网 络 控制 机 
ii] [GIN 08]. 

1. Ginkgo 代理 和 知识 平面 的 共 置 视图 

在 Ginkgo 模型 中 ， 知 识 平面 分 布 在 Ginkgo 代理 间 ， 作 为 一 个 “ 共 置 视图 ” 
集 。 每 个 共 置 视图 代表 一 个 个 体 代 理 的 知识 ， 这 是 就 在 其 邻居 关系 中 的 网 络 位 置 而 
言 的 ， 其 中 假定 相 比 在 远程 位 置 中 的 情况 ， 这 种 位 置 对 代理 而 言 是 更 重要 的 。 此 
外 ， 在 个 体 共 置 视图 中 更 新 知识 ， 对 于 具有 有 限 的 控制 流量 来 说 ， 以 实时 方式 完成 
是 比较 容易 的 。 一 起 工作 的 各 Ginkgo 代理 维护 整体 网 络 位 置 的 一 个 总 是 最 新 的 集 
体 分 布 式 知识 ， 如 图 4.4 所 示 [GIN 08]. 


-一 人 -人 人 人 
个 体 邻居 一 集体 性 分 布 式 知识 ss 
关系 知识 EON > 
Ts St dee Em S | S 
i Pela e iue 
aue NN NE 


Ginkgo 
代理 





图 4.4 Ginkgo 代理 和 知识 平面 


2. Ginkgo 代理 架构 
Ginkgo 代理 由 三 个 主要 类 型 的 构造 块 组 成 〈 见 图 4.5) : 
1) 共 置 视图 知识 库 ， 专 门 用 来 存储 各 代理 共 置 视图 的 结构 化 知识 。 


PAE 语 境 感知 技术 的 最 新 状态 85 





2) 行为 ， 是 自治 软件 组 件 永久 地 将 其 自己 自 适应 到 环境 的 变化 。 这 些 行为 中 
每 种 行为 可 被 看 作 具 有 专家 能 力 的 一 项 专门 功能 。 每 种 行为 本 质 上 是 一 个 感知 一 决 
策 -动作 环 路 ， 负 责 一 项 控制 功能 。 

3) 动态 规划 器 ， 负 责编 排行 为 。 动 态 规划 器 遵循 用 户 提供 的 一 项 策略 ， 指 明 
各 行为 应 该 如 何 考虑 到 发 生 在 环境 中 的 动态 变化 。 

每 种 行为 (图 4.5 中 的 “B”) 可 执行 菜 项 专家 功能 。 行 为 的 典型 功能 如 下 

D 共 置 视图 知识 的 产生 是 与 
其 他 代理 协作 产生 的 。 v 

2) 个 体 性 地 或 集体 性 地 推 tipa 
理 ， 来 评估 状况 ， 并 决定 应 用 一 5 6 2 
个 合适 的 动作 ， 如 一 个 行为 可 简 COE) E 


单 地 负责 计算 网 元 (NE) 的 可 用 





带宽 。 它 也 可 周期 性 地 实施 复杂 网 元 
诊断 ， 或 它 可 与 特定 网 络 条 件 的 d 
自动 识别 相关 联 。 pene Tiga ee 


3) 对 NE 参数 实施 动作 。 例 如 ， 一 个 行为 可 调整 一 个 DiffServ 语 境 中 的 QoS S 
B 

4) 将 有 用 信息 上 传 到 一 个 网 络 管理 系统 。 例 如 ， 一 个 行为 可 上 传 从 基础 告 
的 观测 中 得 到 的 合成 告警 。 

各 行为 可 访问 共 置 视图 ， 在 每 个 代理 内 作为 一 个 白板 操作 ， 该 白板 是 在 代理 的 
行为 间 共 享 的 。 

动态 规划 器 在 一 个 代理 内 实施 行为 的 激活 、 动 态 参数 调整 和 调度 。 动 态 规划 器 
确定 哪些 行为 必须 是 活跃 的 、 何 时 它们 必须 是 活跃 的 和 采用 哪些 参数 。 动 态 规划 器 
检测 共 置 视图 中 的 变化 和 外 部 /内 部 时 间 的 发 生 。 它 编排 各 代理 的 反应 ， 以 便 改变 
网 络 环境 。 为 做 到 这 一 点 ， 动 态 规划 器 遵循 一 项 基于 规则 的 策略 ， 是 以 一 种 简单 和 
紧 致 的 形式 表示 的 。 

每 个 代理 的 共 置 视图 是 表示 代理 之 环境 的 一 个 结构 化 知识 库 。 它 包含 由 代理 本 
地 收集 的 知识 单元 和 从 其 对 等 端 得 到 的 知识 。 共 置 视图 是 在 一 个 周期 性 基础 上 更 新 
的 ， 且 它 被 用 来 将 行为 自 适应 到 发 生 在 网 络 中 的 变化 和 采取 实时 决策 。 一 种 自治 机 
制 将 共 置 视图 镜像 到 合适 的 对 等 端 ; 该 知识 被 反映 在 对 等 代理 的 共 置 视图 中 。 依 据 
知识 的 本 质 ， 可 调整 这 种 机 制 的 速率 和 范围 。 遵 循 一 个 基于 本 体 的 模型 ， 组 织 共 置 
视图 ， 这 有 助 于 构建 良 构 的 应 用 ， 并 与 其 他 系统 互 操 作 。 


4.3.2 DimaX 


DimaX 是 一 个 容错 的 多 代理 平台 ， 它 提供 像 命 名 、 故 障 检测 和 恢复 等 几 项 服 
务 。 为 使 MAS 成 为 鲁 棒 的 ，DimaX 使 用 复制 技术 。 此 外 ，DimaX 为 开发 人 员 提 供 
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构建 MAS 的 可 重用 组 件 库 。DimaX 提供 诸如 鲁 棒 性 和 可 重用 能 力 等 有 益 功能 。 

1. DimaX 服务 

DimaX [FAC 06] 是 集成 一 个 多 代理 平台 CE DIMA) 和 一 个 容错 框架 (名 
为 DARX) 的 结果 。 图 4.6 给 出 DimaX 的 一 个 概 图 及 其 主要 的 组 件 和 服务 。DimaX 
被 设计 为 三 层 : 系统 (BI DARX 中 间 件 )、 应 用 ( 即 代理 ) 和 监测 。 在 应 用 层 ， 
DIMA 提供 构建 多 代理 应 用 的 一 个 库 集合 。 此 外 ，DARX 将 分 布 和 复制 代理 作为 服 
务 所 必要 的 各 种 机 制 。DimaX 服务 器 提供 如 下 服务 : 命名 、 故 障 检测 、 观 测 和 


复制 。 
自 适 应 复制 控制 监测 


中 间 件 





故障 检测 服务 


图 4.6 DimaX 架构 层次 : 中 间 件 、 应 用 和 监测 


命名 服务 维护 在 其 管理 域内 所 有 代理 的 一 个 列表 ( 即 白 页 )。 当 创建 一 个 代理 
时 ， 将 之 注册 到 DimaX 服务 器 和 命名 服务 器 。 故 障 检测 服务 (来 自 DARX) 基于 
心跳 技术 : 一 个 进程 发 送 一 条 “I am alive (我 活着 ) ”消息 给 其 他 进程 ， 将 它 是 安 
全 的 这 种 信息 通知 这 些 进程 。 当 一 台 服务 器 检测 到 另 一 台 DimaX 服务 器 的 故障 时 ， 
其 命名 模块 将 寄居 在 故障 服务 器 处 所 有 被 复制 的 代理 从 列表 中 清除 ， 并 以 位 于 其 他 
主机 上 的 它们 的 副本 替换 它们 。 由 故障 通知 发 起 替换 操作 。 

对 于 控制 复制 而 言 ， 观 测 服务 的 功能 是 基础 性 的 。 一 个 观测 模块 在 两 个 层次 收 
集 数 据 。 系 统 层 收集 有 关 MAS 执行 环境 的 数据 (如 CPU 时 间 和 故障 间 均 值 时 间 ) ， 
而 应 用 层 收集 有 关 它 的 动态 特征 的 信息 [如 代理 间 的 交互 事件 ( 如 发 送 和 接收 到 
的 消息 ) ] 。 观 测 服务 依赖 于 一 个 反应 式 代理 的 组 织 结构 〈 名 为 主机 监测 器 ) 。 这 些 
代理 收集 并 处 理 观测 数据 ， 以 便 计 算 本 地 信息 ， 例 如 在 一 个 给 定时 段 过 程 中 两 个 代 
理 之 间 交 换 的 消息 数 。 

DimaX 使 用 复制 机 制 (复制 服务 ) 来 避免 MAS 的 故障 。 不 管 故障 为 何 ， 复 制 
服务 都 能 够 在 没有 中 断 的 情况 下 支持 MAS 的 运行 。 一 个 被 复制 的 代理 是 这 样 一 个 
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实体 ， 它 在 不 同 主机 中 拥有 其 行为 的 两 个 或 多 个 备份 (或 副本 ) 。 有 两 种 主要 类 型 
的 复制 协议 : 主动 的 和 被 动 的 。 在 主动 复制 中 ， 所 有 副本 并 行 地 处 理 所 有 输入 消 
息 ， 而 在 被 动 复 制 中 ， 仅 有 副本 之 一 处 理 所 有 输入 消息 ， 并 周期 性 地 将 其 当前 状态 
传输 到 其 他 副本 ， 从 而 维持 了 一 致 性 。DimaX 提供 几 个 库 和 机 制 ， 以 方便 容错 
MAS 的 设计 和 实现 。 下 面 简 短 地 描述 DimaX 代理 的 特点 。 

2. DIMA 代理 行为 

DIMA 是 一 个 Java 多 代理 平台 。 其 内 核 是 预测 式 组 件 的 一 个 框架 ， 这 些 组 件 代 
表 自 治 和 预测 式 的 实体 。 一 个 简单 的 DIMA 代理 架构 由 一 个 预测 式 代理 、 一 个 代理 
引擎 和 一 个 通信 组 件 组 成 。 预 测 式 代理 ( AgentBehavior 类 ) 代表 代理 行为 。 这 个 
预测 式 组 件 包 括 选 择 合 适 动作 的 一 个 决策 组 件 。 例 如 ， 一 个 有 限 状 态 机 或 一 个 基于 
规则 的 系统 可 被 用 来 描述 决策 过 程 。 被 选中 的 动作 可 包括 发 送 消息 和 一 个 通信 组 
件 ， 该 组 件 发 送 和 交付 消息 。 提 供 一 个 代理 引擎 ， 发 起 和 支持 代理 活动 。 

3. DarX 任务 

DARX 是 设计 可 靠 分 布 式 应 用 的 一 个 框架 ， 这 包括 一 个 分 布 式 通信 实体 集 (名 
为 DarX 任务 ) 。 它 包括 透明 的 复制 管理 。 在 应 用 处 理 任 务 的 同时 ，DARX 处 理 复制 
组 。 这 些 组 中 的 每 个 组 都 由 软件 实体 (副本 ) 组 成 ， 它 们 代表 相同 的 DarX 任务 。 
在 DARX 中 ， 一 个 DarX 任务 可 被 复制 数 次 ， 且 具有 不 同 复制 战略 。 

4. 容错 代理 

一 个 容错 代理 (PRE DimaX 代理 ) 是 构建 在 DimaX 容错 多 代理 平台 之 上 的 一 
个 代理 。 每 个 DimaX 代理 具有 一 个 DarX 任务 的 结构 。 但 是 ，DarX 任务 不 是 自治 
的 。 为 使 之 成 为 自治 的 ， 将 DIMA 代理 行为 封装 在 其 内 部 。 这 个 代理 架构 支持 代理 
的 复制 。 因 为 DARX 中 间 件 和 DIMA 平台 为 执行 控制 、 通 信和 命名 在 不 同 层 次 提供 
机 制 ， 所 以 它们 的 集成 要 求 一 个 额外 组 件 的 集合 。 当 执行 采用 DIMA 开发 的 多 代理 
应 用 时 ， 这 些 组 件 透 明 地 设置 调用 DARX 服务 (如 复制 和 命名 ) 。 在 应 用 层 ， 要 求 
任意 的 代码 修改 。 它 控制 在 DimaX 下 构建 的 代理 的 执行 ， 且 通过 DimaX 服务 器 ， 
它 在 远程 代理 之 间 提 供 一 个 通信 接口 。 


4.3.3 JADE 


JADE 是 一 个 软件 环境 ， 为 联网 信息 资源 的 管理 构建 代理 系统 ， 符 合 可 互 操作 
MAS 的 智能 物理 代理 基础 (FIPA) 规范 [FIP 10], JADE 为 基于 代理 的 应 用 的 开 
发 和 执行 提供 一 个 中 间 件 ， 这 些 应 用 可 在 有 线 和 无 线 环境 中 工作 和 无 颖 地 互 操作 。 
此 外 ， 基 于 一 个 预定 义 的 可 编程 和 可 扩展 代理 模型 以 及 一 个 管理 和 测试 工具 集 ， 
JADE 支持 MAS 的 开发 [BOR 05] 。 一 个 JADE 环境 可 动态 地 演进 ， 原 因 是 依据 应 
用 环境 的 需求 ， 各 代理 可 在 系统 中 出 现 和 消失 。 对 等 端 之 间 的 通信 ， 不 管 它们 是 运 
行 在 无 线 网 络 还 是 有 线 网 络 中 ， 都 是 完全 对 称 的， 原因 是 每 个 对 等 端 都 能 够 扮演 发 
起 者 和 响应 者 的 角色 。JADE 是 完全 采用 Java 开发 的 ， 且 它 基于 如 下 驱动 原则 
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[ BEL 03]: 

1) EREE, JADE 符合 FIPA 规范 [FIP 10]. FAAR, JADE 代理 可 与 其 
他 代理 互 操作 ， 前 提 条 件 是 它们 遵循 相同 标准 。 

2) 一 致 性 和 可 移植 性 。JADE 提供 应 用 编程 接口 (API) 的 一 个 同 构 集 ， 这 独 
立 于 底层 网 络 和 Java 版 本 。 实 际 上 ，JADE 运行 时 为 2EE、J2SE 和 J2ME 环境 提供 
相同 API。 原 理 上 来 说 ， 应 用 开发 人 员 在 部 署 时 才 确 定 Java 运行 时 环境 ， 这 是 可 
能 的 。 

3) 容易 使 用 。 中 间 件 的 复杂 性 是 隐藏 在 一 个 简单 的 和 直觉 的 API 集合 背 
后 的 。 

4) 按 使 用 支付 的 理念 。 编 程 人 员 不 需要 使 用 中 间 件 提供 的 所 有 功能 。 没 有 被 
使 用 的 功能 是 不 需要 编程 人 员 知 道 它们 的 任何 事情 的 ， 且 不 会 添加 任何 计算 上 的 额 
外 负担 。 

JADE 向 代理 编程 人 员 提供 如 下 功能 列表 : 

1) 符合 FIPA 的 代理 平台 ， 它 包括 代理 管理 系统 (AMS) 、 默 认 的 目录 便利 器 
(facilitator) (DF) 和 代理 通信 信道 (ACC). 

2) 分 布 式 的 代理 平台 。 代 理 平台 可 被 分 隔 到 几 台 主机 上 。 在 每 台 主 机 上 执行 
的 仅 有 一 个 Java 应 用 ， 因 此 仅 有 一 个 Java 虚拟 机 。 各 代理 实现 为 一 个 Java 线程 ， 
H Java 事件 被 用 作 相 同 主机 上 各 代理 之 间 有 效 的 和 轻 量 的 通信 。 此 外 ， 并 行 任务 
可 由 一 个 代理 执行 ， 且 JADE 以 一 种 协作 的 方式 调度 这 些 任务 。 

3) 为 构建 多 域 环境 ， 可 在 运行 时 启动 多 个 符合 FIPA 的 额外 DF， 其 中 一 个 域 
是 代理 的 一 个 逻辑 集合 ， 通 过 一 个 共同 的 便利 器 通告 它们 的 服务 。 

4) 发 送 到 其 他 代理 /从 其 他 代理 接收 消息 的 Java API; ACL 消息 表示 为 常规 
Java 对 象 。 

5) 为 避免 编组 和 去 编组 规程 ， 在 相同 代理 平台 内 ACL 消息 的 轻 量 传输 ， 各 消 
息 是 作为 编码 为 Java 对 象 而 不 是 字符 串 传 递 的 。 

6) 管理 用 户 定 义 本 体 和 内 容 语言 的 库 。 

7) 图 形 用 户 接口 (GUI) ， 管 理 数 个 代理 和 由 相同 代理 构成 的 代理 平台 。 可 监 
测 每 个 平台 的 活动 ， 并 做 日 志 。 通 过 这 个 管理 性 的 CUI， 可 在 代理 上 实施 所 有 生命 
周期 的 操作 。 

1. JADE 架构 

JADE 包括 开发 应 用 代理 所 需 的 库 和 提供 基本 服务 的 运行 时 环境 ， 在 各 代理 可 
被 执行 之 前 ， 这 些 服 务必 须 在 设备 上 被 激活 。JADE 运行 时 的 每 个 实例 被 称 作 容器 
(HJE “BA” RE) 。 所 用 容器 的 集合 称 作 平台 ( 见 图 4.7)， 提 供 一 个 同 构 
层 ， 对 代理 和 应 用 开发 人 员 而 言 ， 这 隐藏 了 底层 [ 硬件、 操作 系 统 、 网 络 类 型 和 
Java 虚拟 机 (JVM) ] 的 复杂 性 和 多 样 性 [BEL 03 ] 。 
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多 代理 分 布 式 应 用 








图 4.7 JADE 架构 模型 


2. 构建 复杂 代理 的 行为 

实现 一 个 代理 的 开发 人 员 必 须 扩 展 JADE Agent 类 ， 并 通过 编写 一 个 或 多 个 Be- 
havior 子 类 ， 实 现代 理 特定 的 任务 。 用 户 定义 的 代理 从 其 超 类 继承 与 其 平台 注册 和 
销 户 的 能 力 以 及 一 个 基本 方法 集 (如 发 送 和 接收 代理 通信 语言 消息 ， 使 用 标准 交互 
协议 ， 并 注册 到 几 个 域 ) 。 此 外 ， 用 户 代 理 从 其 Agent 超 类 继承 两 个 方法 : addBehav- 
ior (Behavior) 和 removeBehavior ( Behavior) ， 来 管理 代理 的 行为 列表 [BEL 01 ] 。 

JADE 包含 代理 编程 中 最 常见 任务 的 已 定义 行为 ， 如 发 送 和 接收 消息 ， 并 将 复 
杂 任务 结构 化 为 较 简单 任务 的 聚集 。 例 如 ，JADE 提供 一 个 所 谓 的 JessBehavior， 这 
支持 与 JESS [JES 08] 的 完全 集成 ，JESS 是 规则 编程 的 一 个 脚本 式 环境 ， 它 提供 
一 个 使 用 Rete 算法 处 理 规则 的 引擎 。 

3. 平台 管理 和 监测 的 JADE 工具 

除了 一 个 运行 时 库 外 ，JADE 提供 管理 运行 代理 平台 以 及 监测 和 调试 代理 社会 
(societies) 的 工具 ; 所 有 这 些 工具 都 是 作为 FIPA 代理 本 身 来 实现 的 ， 且 为 实施 它 
们 的 任务 ， 它 们 不 要 求 特殊 支持 [BEL 01] 。JADE 工具 的 例子 如 下 : 

1) 远程 监测 代理 (RMA): 一 个 JADE 代理 平台 的 通用 管理 控制 台 。RMA 获 
取 有 关 平 台 的 信息 ， 并 执行 GUI 命令 ， 修 改 平台 的 状态 。 

2) 目录 便利 器 (DF) GUI; DF 代理 也 有 一 个 GUI， 采 用 它 可 实施 管理 ， 配 置 
它 通告 过 的 代理 和 服务 。 
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3) 哑 代 理 是 一 个 简单 工具 ， 检 查 代理 间 交 换 的 消息 ,方便 代理 消息 交换 模式 
的 验证 和 一 个 代理 的 交互 式 测试 。 

4) 嗅 探 代理 使 我 们 可 跟踪 在 一 个 JADE 代理 平台 中 交换 的 消息 : 跟踪 来 去 一 
个 被 选中 代理 或 组 的 每 条 消息 ， 并 显示 在 嗅 探 器 窗口 中 ， 使 用 类 似 于 统一 建 模 语言 
(UML) 序列 图 的 一 种 表示 。 

JADE 是 一 个 有 益 的 选项 ， 它 通过 FIPA 规范 提供 互 操作 性 。 它 为 MAS 的 开发 
提供 一 种 友好 的 和 和 鲁 棒 的 支持 ， 这 些 MAS 满足 Horizon 项 目的 需求 。 


4.4 网 络 控制 的 语 境 感 知 技术 


当前 互联 网 架构 有 一 个 唯一 的 协议 栈 ， 传 输 控制 协议 /互联 网 协议 (TCP/IP) 
栈 ， 运 行 在 物理 基层 之 上 。 因 此 ， 依 据 没有 区 分 性 的 单个 模型 ， 转 发 来 自 所 有 应 用 
(每 个 应 用 有 不 同性 能 需求 ) 的 报 文 。 为 向 未 来 互联 网 中 的 不 同 应 用 提供 定制 化 服 
务 ，Horizon 项 目 建议 一 种 多 元 论 架 构 ， 这 使 不 同 协议 栈 同时 运行 在 相同 的 共享 物 
理 基层 之 上 。 所 提出 的 架构 是 基于 网 络 虚 拟 化 概念 的 LAND 05] 。 其 思路 是 在 相同 
基层 上 运行 多 个 虚拟 网 络 ， 为 每 个 网 络 提供 资源 [HE O8], ， 由 此 ， 依 据 运行 在 每 
个 虚拟 网 络 上 的 应 用 需求 ， 能 够 创建 不 同 网 络 。 

对 于 所 提供 架构 ， 底 层 网 络 资源 的 高 效 共享 是 一 项 基础 挑战 。 在 Horizon 项 目 
中 ， 开 发 一 个 引导 系统 所 需 的 基础 设施 ， 来 处 理 不 同 虚拟 网 络 间 的 资源 分 配 问 题 。 
目标 是 将 来 自 基础 设施 的 所 需 信息 投射 到 (project) 到 引导 系统 上 。 基 于 这 种 信 
息 ， 引 导 系 统 获取 虚拟 网 络 创建 和 销毁 以 及 物理 资源 的 分 布 等 方面 优化 所 需 的 知 
识 。 对 于 每 个 网 元 (如 路 由 器 和 交换 机 ) ， 引 导 系 统 定义 一 个 共 置 视图 ， 用 来 确定 
单元 周边 的 语 境 ， 并 选择 和 优化 它们 的 控制 算法 和 参数 。 主 要 思路 是 定义 本 地 算法 
(如 路 由 和 QoS 机制) ， 作 为 语 境 的 一 项 功能 ， 目 的 是 增加 网 络 的 扩展 性 。 因 此 ， 
引导 系统 必须 感知 到 语 境 。 

语 境 感知 的 系统 被 定义 为 这 样 的 系统 ， 它 们 可 感知 实体 的 状况 或 其 语 境 ， 并 作 
用 于 这 些 实体 [LOK 06] 。 依 据 这 个 定义 ， 语 境 和 状况 是 紧密 相关 的 概念 ， 对 于 理 
解 语 境 感知 的 系统 ， 这 两 个 概念 都 是 基础 性 的 。 假 定语 境 是 “可 用 来 表征 一 个 实 
体 的 状况 的 任何 信息 "， 见 Loke [LOK 06] 的 定义 。 位 置 、 时 间 、 计 算 资源 和 网 
络 带宽 是 语 境 信息 的 例子 。 另 外 ， 假 定 状况 意 指 一 个 给 定 实体 当前 状态 的 描述 ， 也 
W. Loke [LOK 06] 的 定义 。 例 如 ， 具有 低 反 应 性 、 高 报 文 丢 失 率 和 高 时 延 ( 语 境 
信息 ) 的 一 条 链 路 也 许 是 拥塞 的 (状况 ) 。 在 多 数 情形 中 ， 和 在 前 面 的 例子 中 发 生 
的 情形 一 样 ， 为 确定 一 个 实体 的 状况 ， 不 得 不 汇聚 语 境 信息 。 

语 境 感 知 系统 必须 能 够 确定 状况 如 上 所 述 ， 其 中 涉及 一 个 实体 ) 并 检测 现 
时 状况 的 改变 ， 结 果 是 ， 感 知 到 语 境 。 语 境 感知 也 使 系统 能 够 自动 化 地 执行 动作 ， 
这 运行 在 没有 人 类 干预 的 条 件 下 实施 网 络 控制 。 为 提供 这 些 功能 ， 首 先 ， 系 统 必须 
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监测 环境 ， 获 取 有 关 一 个 网 元 的 语 境 信息 。 在 此 之 后 ， 必 须 就 获得 的 语 境 进行 推 
理 ， 之 后 为 取得 一 个 目标 ， 必 须 执 行动 作 。 各 实体 也 必须 与 其 他 实体 通信 以 便 及 时 
地 确定 它们 的 状况 。 为 克服 这 项 挑战 ， 提 出 使 用 一 个 MAS 范 型 作为 一 个 建 模 基 础 
[SIL 07] 。 因 为 代理 本 身 的 性 质 ， 在 开发 一 个 自治 引导 系统 方面 ， 多 代理 范 型 似乎 
是 有 吸引 力 的 。 这 些 性 质 包括 自治 性 、 预 测 能 力 、 自 适应 能 力 、 协 作 和 移动 性 。 男 
外 ， 多 代理 系统 本 质 上 是 去 中 心 化 的 ， 这 是 大 型 联网 环境 所 需要 的 。 但 是 ， 在 这 个 
项 目 中 ， 通 过 评估 一 个 特定 问题 ， 证 明 这 样 一 个 自治 引导 系统 的 概念 。 在 将 所 提供 
解决 方案 扩展 到 大 型 问题 之 前 ， 在 一 个 有 代表 性 的 情形 中 对 之 进行 试验 是 合理 的 ， 
这 是 由 于 系统 必须 要 处 理 的 网 络 复杂 性 和 大 量 (multitude) 参数 。 目 标 是 表明 ， 将 
解决 方案 外 推 到 整个 网 络 是 可 能 的 ， 因 为 曾 在 一 种 比较 简单 的 情形 中 评估 了 它 的 
性 能 。 

存在 可 被 用 来 开发 语 境 感知 的 几 项 技术 。 本 章 描 述 这 些 技术 中 的 一 些 技 术 ， 并 
为 开发 引导 系统 给 出 选择 。4. 4. 1 节 描 述 语 境 感知 系统 的 一 个 通用 分 层 架 构 。 下 面 
各 节 基 于 这 个 架构 的 各 层 给 出 选择 。 首 先 ，4. 4. 2 节 重点 讨论 语 境 信息 ， 这 些 信息 
可 从 物理 网 络 和 虚拟 网 络 中 获取 。 此 后 ，4. 4. 3 节 描 述 用 来 表示 知识 的 几 项 技术 。 
最 后 ，4, 4. 4 节 定 义 可 被 用 来 引导 虚拟 网 络 的 动作 。4. 5 节 给 出 结语 。 


4.4.1 语 境 感知 系统 架构 


语 境 感知 系统 有 三 项 基本 功能 : 感知 、 思 考 和 动作 。 遵 循 Baldauf 等 [BAL 
07] 提出 的 通用 抽象 分 层 架 构 ， 如 图 4. 8 所 示 。 在 这 个 通用 架构 中 ， 这 三 项 功能 表 
示 为 子 系统 。 为 交换 信息 ， 每 个 子 系统 都 由 一 层 或 相互 关联 的 多 层 组 成 。 但 是 ， 每 
n. 一 个 设备 ， 即 一 个 子 系统 可 思考 和 动作 ， 但 使 用 一 

共享 的 传感器 集 获 取 语 境 信 息 。 另 外 ， 这 些 功 能 中 每 项 功能 的 复杂 度 等 级 都 是 独 
on. 例如 ， 可 开发 这 样 一 个 系统 ， 它 有 复杂 的 传感器 ， 但 在 采取 动作 之 前 几乎 不 
实施 推理 。 此 外 ， 这 三 项 基本 子 系统 可 以 中 心 式 或 分 布 式 方式 加 以 实现 。 

感知 是 一 个 语 境 感知 子 系统 ， 可 被 pees FRR 
分 成 两 层 (UL 4.8): 传感器 和 原 数 据 
检索 。 第 一 层 由 一 个 传感器 集合 组 成 。 
假定 传感器 是 每 个 数据 源 ， 它 提供 语 境 
言 息 而 不 管 数据 源 是 “什么 ”。 在 这 个 意 
义 上 ,温度 的 一 个 数据 源 可 以 是 一 个 硬 
件 设备 ( 如 一 个 温度 计 ) 或 一 个 软件 模 
Hk (如 一 项 软件 应 用 ， 它 从 一 项 Web 服 
务 请 求 温度 )。 这 两 者 都 被 看 作 传 感 器 ， 
原因 是 它们 都 将 温度 读数 提供 给 系统 。 
感知 子 系统 的 第 二 层 负 责 原 语 境 数据 的 ”图 4.8 语 境 感知 系统 的 一 个 分 层 架 构 模型 


动作 子 系统 


思考 子 系统 
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检索 。 该 层 向 上 层 提 供 更 抽象 的 方法 ， 请 求 传 感 器 获取 的 语 境 信息 。 实 际 上 ， 该 层 
是 一 个 接口 ， 使 传感器 的 实现 细节 对 思考 子 系统 是 透明 的 。 因 此 ， 在 上 层 中 不 做 修 
改 的 条 件 下 ， 可 修改 系统 所 使 用 的 传感器 。 

在 采用 传感器 收集 数据 之 后 ， 系 统 的 任务 是 使 用 这 样 的 数据 ， 并 使 之 具有 意义 
[LOK 06] 。 这 是 思考 子 系统 的 角色 ， 可 分 为 两 层 : 预 处 理 和 存储 /管理 。 预 处 理 层 
将 获取 的 所 有 语 境 信息 转变 为 一 个 共同 表示 ， 因 为 语 境 信息 可 以 不 同形 式 获取 ， 如 
离散 值 或 值 的 一 个 连续 系列 。 此 外 ， 该 层 进行 推理 并 解释 语 境 信息 ， 以 推断 更 多 知 
识 。 系 统 使 用 的 推理 技术 范围 从 简单 的 事件 一 条 件 规则 到 复杂 的 人 工 智 能 技术 
[LOK 06]. 。 预 处 理 层 也 汇聚 来 自 不 同 传感器 的 语 境 信息 ， 以 便 提 供 更 准确 的 信息 。 
另外 ， 需 要 知识 表示 技术 ， 即 以 一 种 机 器 可 处 理 的 形式 来 定义 和 存储 语 境 信 息 。 这 
是 存储 /管理 层 的 角色 。 存 在 几 项 知识 表示 技术 ， 如 基于 图 形 的 、 基 于 逻辑 的 和 基 
于 本 体 的 技术 [BAL 07 ] 。 

第 三 个 子 系统 是 动作 子 系统 。 基 于 采集 的 语 境 信息 或 由 感知 和 思考 子 系统 识别 
的 状况 ， 一 个 语 境 感 知 系统 采取 动作 。 依 据 应 用 需求 定义 由 系统 采取 的 动作 ， 如 
图 4.8 所 示 。 例 如 ， 在 一 个 拥塞 控制 应 用 中 ， 传 感 器 监测 一 条 网 络 链 路 的 带宽 ， 并 
指明 该 链 路 是 饱和 的 。 因 此 ， 系 统 “ 思 考 ”， 并 决定 阻塞 新 流 和 维护 所 有 的 当前 
流 。 一 般 而 言 ， 一 个 语 境 感知 系统 必须 及 时 动作 ， 以 便 快速 地 依据 环境 变化 调整 其 
操作 。 另 外 ， 这 些 系统 应 该 允许 用 户 控制 动作 ， 即 用 户 应 该 能 够 覆盖 、 取 消 和 终止 
动作 ， 且 也 可 反 转 (reverse) 一 个 动作 的 结果 。 

遵循 所 描述 的 架构 来 开发 一 个 网 络 引导 系统 。 基 于 MAS， 以 一 种 分 布 式 方式 
实现 各 层 。 感 知 子 系统 是 采用 沿 虚 拟 路 由 器 分 散 的 传感器 实现 的 。 由 此 ， 不 是 采取 
每 个 代理 一 个 传感器 的 做 法 ， 而 是 可 由 所 有 代理 使 用 的 一 个 传感器 集合 。 通 过 直接 
读 取 存在 于 路 由 器 操作 系统 上 的 数据 和 使 用 测量 工具 ， 传 感 器 收集 语 境 信息 。 也 定 
义 了 传感器 将 获取 的 语 境 信息 转换 为 一 个 共同 表示 。 在 4. 4. 2 节 中 详细 描述 所 考虑 
的 语 境 信息 和 正在 开发 的 传感器 。 各 代理 实现 与 思考 和 动作 子 系统 有 关 的 所 有 其 他 
各 层 。 因 此 ， 为 获取 语 境 信息 ， 它 们 必须 与 传感器 集合 进行 通信 ， 并 由 此 处 理 这 个 
言 息 以 采取 动作 。 在 4. 4.3 节 讨 论 知识 表示 技术 ， 在 4.4.4 节 中 讨论 由 引导 系统 定 
义 的 动作 。 

4.4.2 感知 子 系统 


开发 一 个 传感器 集合 ， 它 与 代理 是 解 耦 的 。 因 此 ， 能 够 开发 轻 量 代 理 〈 以 计 
算 处 理 来 衡量 ) ， 原 因 是 它们 不 必 每 个 要 被 感知 的 语 境 信息 都 实现 一 个 传感器 。 代 
理 仅 必 须 与 传感器 交换 信息 ， 以 便 请 求 和 接收 期 望 的 语 境 信息 。 因 此 ， 虽 然 通过 解 
耦 感知 子 系统 ， 稍 稍 修改 代理 的 经 典 架 构 ， 但 每 个 代理 仍然 能 够 获取 感知 信息 。 

正在 开发 的 传感器 ， 基 本 上 通过 使 用 两 种 方法 获取 语 境 信 息 。 传 感 器 读 取 由 运 
行 在 物理 路 由 器 和 虚拟 路 由 器 上 的 操作 系统 提供 的 可 用 数据 ， 也 使 用 著名 的 工具 来 
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监测 网 络 ， 如 ping [ LIN 10], nmap [NMA 10] 和 ifconfig [VAN 10]。 在 收集 数 
据 之 后 ， 传 感 器 将 原 数 据 翻 译 为 扩展 标记 语言 (XML) [QUI 10] 数据 结构 ， 当 被 
请 求 时 ， 则 已 经 准备 好 要 发 送 到 各 代理 了 。 本 章 将 焦点 放 在 语 境 信息 的 描述 上 ， 这 
些 信息 对 于 控制 虚拟 网 络 间 的 资源 分 配 是 有 用 的 。 为 虚拟 化 一 个 网 络 ， 首 先 定义 计 
划 在 多 个 虚拟 网 络 间 共 享 的 资源 。 当 前 ， 识 别 出 如 下 基本 资源 : 处 理 能 力 、 内 存 、 
带宽 、 流 量 和 网 络 拓扑 [SHE 09] 。 网 元 ( 如 路 由 器 和 交换 机 ) 的 计算 资源 必须 在 
虚拟 网 络 间 分 片 。 这 些 资源 包括 处 理 能 力 和 内 存 。 值 得 指出 的 是 ， 为 使 系统 正常 地 
工作 ， 资 源 共享 是 一 项 基本 要 求 。 如 果 一 台 路 由 器 没有 可 用 的 CPU 周期 ， 则 它 可 
停止 转发 报 文 和 交换 路 由 消息 。 当 一 台 给 定 虚拟 路 由 器 的 路 由 表 增 加 时 ， 为 避免 覆 
盖 另 一 台 虚 拟 路 由 器 的 一 个 路 由 表 ， 内 存 隔离 是 一 项 重要 要 求 ， 如 果 出 现 覆 盖 ， 则 
报 文 将 不 被 正确 地 转发 。 带 宽 、 流 量 和 拓扑 是 必须 分 片 的 网 络 资源 。 首 先 ， 必 须 确 
保 在 一 条 物理 链 路 上 每 个 虚拟 网 络 所 占 带 宽 比 。 在 一 条 给 定 源 一 目的 路 径 上 能 够 限 
制 转发 速率 的 所 有 网 元 也 都 应 该 被 分 片 [SHE 09] 。 其 次 ， 必 须 能 够 将 一 个 特定 流 
量 集 与 一 个 或 多 个 虚拟 网 络 关联 ， 即 流量 集 必须 是 相互 隔离 的 。 这 是 在 多 个 虚拟 网 
络 中 采用 的 一 个 关键 点 。 就 这 个 意义 而 言 ， 流 量 意 指 如 来 去 一 个 给 定 地 址 的 所 有 报 
文 或 所 有 超 文本 传输 协议 (HTTP) 流量 。 最 后 ， 每 个 网 元 应 该 知道 一 个 给 定 虚拟 
网 络 内 的 各 个 节点 。 因 此 ， 一 台 虚 拟 路 由 器 应 该 能 够 确定 它 自 己 对 其 他 路 由 器 以 及 
这 些 路 由 器 间 的 连通 性 的 视图 。 

开发 传感器 ， 获 取 与 基本 资源 有 关 的 语 境 信息 。 因 此 ， 可 从 物理 网 络 和 虚拟 网 
络 获取 的 数据 被 分 为 两 组 : 计算 资源 和 网 络 状 态 。 第 一 组 与 每 台 物 理 路 由 器 和 虚拟 
路 由 器 有 关 。 第 二 组 指明 每 条 物理 链 路 和 虚拟 链 路 的 状态 。 对 于 每 台 物 理 路 由 器 ， 
取决 于 所 采用 的 网 络 虚拟 化 技术 。 传 感 器 目前 能 够 获取 如 下 数据 ; 

1) 处 理 器 使 用 情况 (各 物理 CPU); 

2) 使 用 的 内 存 ; 

3) 可 用 的 内 存 ; 

4) 使 用 的 交换 内 存 ; 

5) 可 用 的 交换 内 存 ; 

6) 分 配给 一 台 给 定 虚拟 路 由 器 的 总 内 存 ; 

7) 每 台 物理 路 由 器 的 虚拟 路 由 器 数 ; 

8) 分 配给 一 台 给 定 虚拟 路 由 器 的 虚拟 处 理 器 数 ; 

9) 为 一 台 给 定 虚拟 路 由 器 定义 的 虚拟 接口 数 。 

各 传感器 直接 从 物理 路 由 器 的 操作 系统 读 取 要 求 的 大 部 分 数据 。 通 过 对 虚拟 处 
理 器 的 使 用 情况 求 和 ， 估 计 物 理 处 理 器 使 用 情况 。 

对 于 每 台 虚 拟 路 由 器 ， 各 传感器 可 获取 如 下 数据 ; 

1) 处 理 器 使 用 情况 (各 虚拟 CPU) ; 

2) 使 用 的 内 存 ; 
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3) 可 用 的 内 存 ; 

4) 使 用 的 交换 内 存 ; 

5) 可 用 的 交换 内 存 。 

依据 所 采用 的 虚拟 化 技术 ,通过 使 用 由 物理 路 由 器 的 操作 系统 所 提供 的 工具 ， 
得 到 虚拟 CPU 使 用 情况 ; 直接 从 虚拟 路 由 器 的 操作 系统 读 取 内 存 信息 。 就 这 个 意 
义 上 而 言 ， 需 要 访问 这 些 虚拟 路 由 器 。 

第 二 组 语 境 信息 是 与 网 络 状态 有 关 的 。 传 感 器 目前 能 够 获取 每 物理 网 络 接口 或 
虚拟 网 络 接口 的 如 下 信息 : 

1) 所 接收 的 报 文 数 ; 

2) 接收 到 的 字 节 数 ; 

3) 错误 报 文 数 ; 

4) 在 接收 过 程 中 丢弃 报 文 数 ; 

5) 接收 速率 ; 

6) 传输 报 文 数 ; 

7) 传输 字 节 数 ; 

8) 在 传输 过 程 中 丢弃 报 文 数 ; 

9) 传输 速率 。 

各 传感器 也 发 现 物 理 网 络 和 虚拟 网 络 的 拓扑 。 因 此 ， 对 于 每 个 邻居 ， 可 确定 如 
一 条 给 定 链 路 的 可 用 带宽 和 延迟 。 在 项 目 中 ， 考 虑 以 前 给 出 的 语 境 信息 足以 作为 推 
HRR (正在 开发 的 引导 系统 所 采用 的 ) 的 一 个 基础 。 采 用 这 个 信息 ， 为 保障 每 
个 虚拟 网 络 的 隔离 和 资源 ， 引 导 系 统 将 能 够 对 环境 的 变化 做 出 反应 。 


4.4.3 思考 子 系统 


思考 子 系统 的 角色 是 使 传感器 获取 的 数据 有 意义 ， 并 使 用 语 境 信息 对 环境 变化 
做 出 反应 。 基 本 上 来 说 ， 思 考 子 系统 将 知识 表示 技术 与 推理 技术 组 合 在 一 起 。 知 识 
表示 技术 以 一 种 机 器 可 处 理 的 形式 定义 和 存储 语 境 信 息 [DAV 93], 。 因 此 ， 一 项 知 
识 表示 技术 的 目标 是 以 一 种 逻辑 形式 存储 语 境 信息 ， 以 便 使 用 这 个 信息 支持 推理 技 
术 。 推 理 技术 包括 如 数学 模型 、 推 断 技术 和 基于 认 知 的 模型 [LOK 06]。 将 焦点 放 
在 知识 表示 技术 上 。 人 们 提出 几 项 技术 来 表示 知识 ， 并 存在 将 这 些 技术 分 为 各 类 的 
研究 [LOK 06, STR 04，BAL 07]。 下 面 简短 地 描述 了 知识 表示 技术 最 有 关 类 中 的 
四 个 类 。 

基于 标记 的 技术 定义 层次 化 数据 结构 来 表示 语 境 信息 。 这 些 数 据 结构 由 带 有 属 
性 和 内 容 的 标记 标签 组 成 。 每 个 标签 的 内 容 可 递归 地 由 其 他 标签 定义 。 最 流行 的 标 
记 语 言 之 一 是 XML [QUI 10] 。 目 前 ， 存 在 几 个 基于 XML 的 知识 表示 语言 和 标准 ， 
如 DARPA 代理 标记 语言 (DAML) [DAR 10] 和 Web 本 体 语言 (OWL) [MCG 
10] 。 当 前 正 使 用 XML 作为 共同 语言 来 表示 由 传感器 获取 的 所 有 数据 ， 也 用 之 描述 
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在 系统 中 所 交换 消息 的 内 容 。 

一 般 而 言 ， 基 于 预定 义 的 条 件 ， 一 个 逻辑 从 一 个 表达 式 集 或 事实 推导 得 到 一 个 
结论 性 的 表达 式 [STR 04]. 。 这 个 过 程 被 称 作 推 新 ， 且 条 件 由 一 个 规则 集 形 式 化 地 
描述 。 结 果 是 ， 如 果 正 在 考虑 基于 逻辑 的 技术 ， 则 语 境 信息 可 表示 为 事实 、 表 达 式 
和 规则 。 因 此 ， 以 事实 的 形式 ， 语 境 信 息 被 添加 到 一 个 基于 逻辑 的 系统 ， 删 除 或 更 
新 语 境 信息 的 情况 类 此 。 也 可 从 系统 中 定义 的 规则 推断 语 境 信息 。 例 如 ，Ranga- 
nathan 和 Campbell [RAN 03] 建议 通过 使 用 一 阶 逻辑 技术 来 表示 语 境 和 状况 。 在 
这 种 情形 中 ， 通 过 使 用 Prolog 语言 ， 定 义 规则 将 状况 映射 到 动作 。 所 提出 的 规则 基 
本 上 将 语 境 信息 与 状况 相关 。 语 境 信 息 是 一 个 规则 的 条 件 ， 状 况 是 一 条 规则 的 
结论 。 

由 于 其 直觉 特性 ， 图 形 建 模 技术 被 大 量 使 用 。UML [OBJ 10] 是 一 个 著名 的 
通用 建 模 工具 ， 并 且 也 可 用 来 表示 语 境 信 息 [KOG 02], UML 类 图 是 这 种 语言 芯 
图 形 组 件 ， 并 从 这 些 图 可 推导 实体 一 关系 模型 [BER 05 ] 。 这 种 模型 大 量 用 作 开 发 
关系 数据 库 的 结构 化 工具 ， 这 可 被 看 作 一 个 知识 库 [STR 04] 。 另 一 项 图 形 技术 被 
称 作 语 境 图 [BRE 03, PAD 04] 。 这 项 技术 没有 像 UML 一 样 定 义 图 (diagram), 
但 它 提出 语 境 空间 的 概念 ， 这 是 语 境 信息 的 一 个 空间 视图 。 每 种 类 型 的 语 境 信息 表 
示 为 一 个 多 维 空间 的 一 个 轴 ， 由 此 ， 传 感 器 读数 表示 为 点 ， 状 况 表示 为 这 个 空间 中 
的 区 域 。 

一 般 来 说 ， 本 体 被 定义 为 一 个 概念 和 术语 集合 ， 被 用 来 描述 一 个 知识 领域 ， 或 
开发 这 个 领域 的 一 种 表示 法 ， 这 包括 领域 元 素 之 间 的 关系 。 特 别 地 ， 术 语 集 可 以 一 
种 层次 化 方式 排序 ， 并 用 作 构 建 一 个 知识 库 的 “草图 ”(sketch) [GOM 99] 。 由 这 
个 定义 ， 可 清晰 地 识别 本 体 和 知识 库 之 间 的 差异 。 本 体 提供 一 个 术语 集 来 描述 一 个 
给 定 的 领域 ， 而 一 个 知识 库 用 这 些 术 语 描述 一 个 给 定 状 况 。 如 果 这 个 状况 改变 ， 则 
知识 库 也 改变 。 但 是 ， 因 为 领域 保持 一 样 的 ， 所 以 本 体 没 有 改变 。 因 此 ， 可 容易 地 
从 本 体 开发 一 个 知识 库 ， 这 是 这 项 技术 的 主要 优势 。 此 外 ， 基 于 本 体 的 技术 有 其 他 
优势 。 首 先 ， 这 些 技术 避免 不 确定 性 ， 原 因 是 它们 提供 一 个 准确 描述 和 一 个 特定 的 
词汇 来 表示 知识 。 其 次 ， 基 于 本 体 的 技术 支持 知识 共享 ， 原 因 是 在 同一 领域 内 的 各 
应 用 可 使 用 同一 本 体 。 最 后 ， 同 一 本 体 可 表示 为 不 同 语言 。 一 般 而 言 ， 一 个 本 体 由 
一 个 分 类 法 ( 即 一 个 概念 集 和 概念 之 间 的 一 个 层次 结构 )、 这 些 概念 之 间 的 一 个 关 
系 集 和 一 个 公理 集 [GOM 99] 组 成 。 

为 引导 系统 构建 一 个 知识 库 ， 由 此 定义 一 个 本 体 来 描述 有 多 个 虚拟 网 络 的 环 
境 。 另 外 ， 所 分 析 的 针对 开发 代理 的 多 数 平台 都 有 工具 来 定义 其 代理 内 部 的 本 体 。 
Ginkgo 平台 [GIN 08, GIN 09] 考虑 由 类 和 个 体 组 成 的 一 种 基于 本 体 的 表示 法 。 
这 两 个 概念 非常 类 似 于 一 个 面向 对 象 数 据 模型 的 类 和 实例 。 一 个 个 体 是 一 个 类 的 一 
个 实例 。 因 此 ， 一 个 类 是 一 个 个 体 集 (个 体 是 这 个 类 的 成 员 ) ， 而 知识 库 是 一 个 类 
树 ， 如 图 4.9 所 示 (摘自 参考 文献 [GIN 09]) 。 在 这 个 例子 中 有 两 个 类 





Person 
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和 了 Employee， 它 们 是 从 根 类 Thing 派生 的 ， 每 个 类 有 一 个 实例 一 一 John 和 Jane. 在 
实践 中 ， 类 可 以 是 路 由 器 、 用 户 、 流 、 应 用 等 。 此 外 ， 可 观察 到 类 有 存储 数据 的 属 
性 。 这 些 属 性 有 一 个 标识 符 ， 是 单 值 的 或 多 值 的 。 个 体 有 它们 作为 成 员 的 类 的 相同 
属性 ， 同 样 有 其 父 类 的 属性 。 




















| me | Employee 
Te * sala * 
+ married 
实例 
个 体 


图 4.9 使 用 Ginkgo 平台 的 一 个 简单 知识 库 


4.4.4 动作 子 系统 


动作 子 系统 是 引导 系统 的 组 成 部 分 ， 负责 基于 采集 的 语 境 信息 或 由 感知 和 思考 
子 系统 识别 的 状况 ， 对 环境 的 变化 做 出 反应 。 我 们 的 选择 是 ， 不 管 网 络 采用 的 虚拟 
化 技术 是 什么 ， 定义 典型 的 基本 功能 。 之 后 ， 基 于 这 些 功 能 ， 由 引导 系统 采取 动 
作 。 下 面 描述 这 些 功能 。 

识别 出 四 项 基本 功能 : 多 个 定制 网 络 的 创建 、 灵 活 的 管理 、 实 时 控制 和 监测 : 
为 采用 这 些 功 能 ， 也 定义 原 语 。 各 原 语 支 持 实例 化 /删除 Cinstantiate/delete) . if, 
移 (migrate) 网 元 和 流 ， 以 及 设置 (set) 它们 的 资源 分 配 参 数 。 这 种 原 语 使 网 络 
虚拟 化 成 为 创建 多 个 虚拟 网 络 的 一 种 合适 技术 ， 结 果 是 支持 多 元 论 方法 的 合适 技 
术 ， 因 为 它 满足 了 几 项 需求 ， 如 下 解释 。 

1) 在 一 个 多 元 论 架 构 中 ， 有 并 行 运行 的 多 个 定制 网 络 ， 由 此 创建 功能 是 基本 
的 。 就 这 个 意义 上 来 说 ， 实 例 化 原 语 可 被 用 来 实例 化 虚拟 网 元 ， 如 虚拟 路 由 器 和 / 
或 虚拟 链 路 ， 且 由 此 多 个 虚拟 网 络 可 被 快速 部 署 和 同时 运行 。 每 个 虚拟 网 络 有 其 自 
己 的 协议 栈 、 网 络 拓扑 、 管 理 策略 等 。 这 使 网 络 创新 和 新 的 商务 模型 成 为 可 能 
[FEA 07]。 采 用 网 络 虚拟 化 ， 一 个 服务 提供 商 可 分 配 一 条 端 到 端 虚拟 路 径 ， 并 针 
对 所 提供 网 络 服务 裁剪 过 的 一 个 虚拟 网 络 〈 如 带 有 QoS 保障 的 一 个 网 络 ) 实例 化 。 
因此 ， 可 容易 地 部 署 新 服务 ， 且 新 的 玩家 (players， 局 中 人 ) 可 打破 壁 又 进入 到 网 
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络 服务 市 场 。 

2) 灵活 的 管理 是 识别 出 的 第 二 项 功能 。 网 络 虚拟 化 层 打破 了 逻辑 (用 来 构造 
转发 表 ) 和 物理 硬件 (实现 报 文 转发 任务 ) [WAN 08] 之 间 的 耦合 。 因 此 ， 迁 移 
原 语 支持 将 一 个 虚拟 网 元 从 一 个 物理 硬件 移动 到 另 一 个 物理 硬件 ， 而 不 改变 逻辑 / 
虚拟 网 络 拓扑 。 另 外 ， 流 量 工程 和 优化 技术 可 使 用 迁移 原 语 ， 沿 物理 基础 设施 移动 
虚拟 网 元 / 链 路 ， 目 的 是 最 小 化 能 量 成 本 、 从 服务 器 到 特定 网 络 用 户 的 距离 或 其 他 
目标 函数 。 

3) 实时 控制 是 第 三 项 功能 。 虚 拟 网 络 架构 也 支持 虚拟 网 络 资源 的 实时 控制 ， 
因为 可 为 每 个 虚拟 网 元 ( 路由器、 交换机 、 链 路 、 网 关 等 ) 设置 资源 分 配 参 数 。 
可 设置 分 配 的 内 存 、 带 宽 、 最 大 容忍 时 延 等 ， 即 使 特定 的 硬件 参数 也 可 设置 ， 如 在 
一 个 竞争 场景 中 虚拟 处 理 器 数 和 处 理 器 使 用 的 优先 级 。 因 此 ， 依 据 当 前 网 络 状况 、 
用 户 数 、 每 个 虚拟 网 络 的 优先 级 、 服 务 水 平 协议 (SLA) 等 ， 可 动态 地 调整 分 配给 
每 个 虚拟 网 络 的 资源 。 

4) 监测 也 是 一 项 重要 功能 ， 原 因 是 网 络 虚 拟 化 技术 要 求 一 个 监测 工具 集 ， 这 
是 测量 关注 的 变量 所 需 的 ， 如 可 用 带宽 、 处 理 器 和 内 存 使 用 以 及 链 路 和 端 到 端 时 
延 。 为 测量 期 望 的 变量 ， 调 用 监测 原 语 。 在 这 个 项 目 中 ， 由 传感器 实施 测量 ， 见 
4.4.2 节 的 解释 。 由 此 ， 当 调用 监测 原 语 时 ， 实 际 上 调用 的 是 传感器 。 

引导 系统 使 用 的 四 项 功能 是 保障 每 个 虚拟 网 络 的 需求 。 例 如 ， 为 检测 恶意 代 
码 ， 一 个 给 定 虚拟 网 络 采用 一 个 人 侵 检测 系统 (IDS) 。 在 这 种 情形 中 ， 如 果 监 测 
到 一 次 攻击 【如 分 布 式 拒绝 服务 (DDoS) ] ， 则 可 使 用 删除 原 语 来 删除 一 个 虚拟 网 
元 / 链 路 ， 甚 至 整个 网 络 。 图 4. 10 也 给 出 一 个 流量 工程 的 例子 ， 它 使 用 迁移 原 语 ， 
沿 物理 基础 设施 移动 虚拟 路 由 器 ， 以 便 最 小 化 能 量 成 本 或 其 他 目标 函数 。 在 这 个 例 
子 中 ， 有 5 个 物理 路 由 器 CR, R, R, R 和 Rs ) ， 且 最 初 有 两 个 虚拟 网 络 。 第 
一 个 虚拟 网 络 为 IP 上 的 话音 (VoIP) 呼叫 提供 QoS， 并 由 分 别 放 置 于 物理 路 由 器 
R,, R, 和 Rs 中 的 虚拟 路 由 器 A, A, MA 组 成 。 第 二 个 虚拟 网 络 是 一 个 安全 网 
络 ， 由 分 别 放置 于 物理 路 由 器 R, R, 和 Rs 中 的 虚拟 路 由 器 S, S, FILS, 组 成 。 假 
定 一 条 负载 均衡 规则 是 刚好 在 物理 CPU 使 用 率 达 到 80% 之 后 ， 移 动 有 最 高 CPU 利 
用 率 的 虚拟 路 由 器 。 在 这 个 场景 中 ， 如 图 4. 10a 所 示 ， 物 理 路 由 器 R, 有 两 个 虚拟 
路 由 器 A, 和 S,， 且 每 个 路 由 器 使 用 物理 CPU 的 25%。 由 此 ， 满足 所 定义 的 规则 。 
假定 为 视频 流 化 应 用 提供 QoS， 创 建 第 三 个 虚拟 网 络 。 如 图 4. 10b 所 示 ， 这 个 网 络 
由 分 别 放 置 于 物理 路 由 器 R R 和 Rs 中 的 虚拟 路 由 器 V, V AV, 组 成 。 因 此 ， 
将 一 个 虚拟 路 由 器 添加 到 R,, H V, BES 25% 以 上 的 物理 CPU 使 用 率 。 目 前 ，CPU 
使 用 率 是 75% ， 且 规则 仍然 得 到 满足 。 但 是 ， 在 此 之 后 ， 虚 拟 路 由 器 V, 要 求 10% 
以 上 的 CPU 使 用 率 ， 则 总 CPU 使 用 率 变 得 大 于 80% 。 因 此 ， 依 据 所 定义 的 规则 ， 
必须 移动 具有 最 高 CPU 使 用 率 的 虚拟 路 由 器 ， 在 这 种 情形 中 是 V, 。 一 种 方案 是 将 
V, 移 到 Rs;， 如 图 4. 10c 所 示 。 在 迁移 虚拟 路 由 器 之 后 ， 所 有 物理 路 由 器 中 的 CPU 
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使 用 率 小 于 80% ， 并 满足 规则 。 





图 4. 10 使 用 迁移 原 语 的 流量 工程 
a) 在 Ry 中 两 个 虚拟 网 络 和 50% 的 CPU 使 用 率 b) 在 Ry 中 两 个 虚拟 网 络 和 75% 的 CPU 使 用 率 
c) 虚拟 路 由 器 Vo 迁移 到 物理 路 由 器 Ry 
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4.5 小结 


本 章 描述 有 关 自 治 系统 和 MAS 的 最 新 技术 状态 。 这 些 系统 是 良好 地 适应 复杂 
环境 的 ， 并 由 实现 自 引 导 系 统 概念 的 高 度 动态 的 网 络 组 成 。 给 出 构造 代理 的 三 个 平 
台 的 概述 ， 这 对 于 网 络 控制 和 管理 的 开发 是 有 用 的 。 

开发 一 个 引导 系统 所 需 的 基础 设施 ， 该 系统 控制 分 配给 每 个 虚拟 网 络 的 资源 。 
这 个 系统 创建 和 销毁 虚拟 网 络 ， 设 置 虚拟 网 络 的 参数 并 迁移 网 元 。 基 于 沿 网 元 分 散 
的 传感器 获取 的 语 境 信 息 ， 执 行 这 些 动 作 。 引 导 系 统 是 基于 多 代理 范 型 的 ， 为 增加 
网 络 扩展 性 以 一 种 分 布 式 方式 开发 的 。 

引导 系统 也 遵循 4. 4. 1 节 讨论 的 分 层 架构 。 正 在 开发 的 传感器 读 取 由 运行 于 物 
理 路 由 器 和 虚拟 路 由 器 上 操作 系统 提供 的 可 用 数据 ， 并 且 也 使 用 监测 网 络 的 著名 工 
具 。 但 是 ,传感器 解 厅 于 代理 ， 这 使 它们 就 计算 处 理 方面 是 轻 量 的 。 在 这 种 情形 
中 ， 各 代理 仅 必须 与 传感器 交换 信息 ， 请 求 和 接收 期 望 的 语 境 信 息 。 目 前 ， 各 传 感 
器 没有 向 代理 发 送 消息 。 在 收集 数据 之 后 ， 传 感 器 将 原 数据 翻译 为 要 发 送 到 一 台 服 
务 器 的 XML 数据 结构 。 

为 引导 系统 定义 的 动作 是 多 个 定制 网 络 的 创建 、 灵 活 的 管理 、 实 时 控制 和 监 
测 。 另 外 ， 为 利用 这 些 功 能 而 定义 的 原 语 是 实例 化 、 删 除 和 迁移 网 元 与 流 ， 并 设置 
资源 分 配 参数 。 不 管 网 络 采用 的 虚拟 化 技术 是 什么 ， 这 些 功能 和 原 语 都 是 可 行 的 。 
为 评估 这 些 功 能 和 所 定义 的 网 络 资源 是 否 足以 引导 网 络 ， 则 要 求 进行 试验 分 析 。 
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第 5 章 ” 问 虚拟 网 络 提供 隔离 和 服务 质量 


本 章 给 出 处 理 虚 拟 网 络 需 求 的 一 项 提案 ,这些 需求 如 隔离 、 服 务 质量 (QoS) 
以 及 拥塞 和 故障 避免。 数据 网 络 代表 一 个 动态 的 和 复杂 的 领域 ,其 中 管理 人 员 每 天 
都 面临 新 问题 和 挑战 。 网 络 应 用 的 快速 增长 和 收集 的 日 渐 增 多 的 信息 量 ， 使 资源 和 
网 络 控制 变 得 越 来 越 复杂 。 基 础 设施 提供 商 和 虚拟 网 络 之 间 与 共享 相同 物理 基层 的 
现 有 虚拟 网 络 之 间 的 冲突 性 目标 ， 以 及 变化 的 需求 ， 使 虚拟 网 络 的 管理 和 控制 成 为 
一 项 困难 的 任务 。 因 此 ， 在 这 样 一 个 不 可 预测 的 、 变 化 的 和 开放 的 环境 中 ， 一 种 动 
态 控制 可 以 是 取得 改进 的 网 络 管理 和 监测 的 一 种 解决 方案 。 之 后 提出 自 适 应 的 网 络 
监测 方法 ， 监 测 网 络 状态 并 编排 网 络 的 不 同 组 件 。 主 要 目标 是 将 一 项 智能 控制 添加 
到 网 络 ， 来 保障 QoS， 同 时 改进 网 络 管理 和 整体 性 能 。 

在 本 章 ，5. 1 节 描 述 现 有 控制 算法 ， 可 在 虚拟 联网 中 加 以 使 用 。5. 2 节 描 述 使 
用 Xen 进行 报 文 转发 的 主要 挑战 。 之 后 ，5. 3 节 给 出 针对 物理 网 络 节点 内 局 部 控制 
开发 的 一 项 提案 。 这 项 提案 是 在 引导 平面 内 设计 的 ， 是 为 确保 来 自 所 有 虚拟 网 络 的 
协议 得 到 满足 ， 即 使 存在 行为 不 当 违 反 其 服务 水 平 协议 (SLA) 的 虚拟 网 络 时 也 要 
得 到 满足 。 主 要 思想 是 控制 域 0 (dom0) 共享 的 资源 ,依据 虚拟 网 络 的 SLA 调整 
每 虚拟 网 络 使 用 的 资源 量 [FER 11]。 最 后 ,在 5.4 节 给 出 小 结 


5.1 虚拟 网 络 控制 和 管理 背景 知识 


可 在 局 部 范围 和 全 局 范围 处 理 虚 拟 联网 控制 和 管理 。 在 全 局 范围 ， 包 括 诸如 实 
例 化 虚拟 节点 、 虚 拟 链 路 和 迁移 虚拟 网 络 等 操作 。 另 外 ， 在 局 部 范围 ， 在 每 个 物理 
节点 上 监测 指派 到 每 个 虚拟 网 络 的 资源 。 例 如 ， 局 部 控制 必须 处 理 虚 拟 网 络 隔离 。 

Schaffrath 等 提出 虚拟 网 络 全 局 控制 的 一 个 架构 [SCH 09 ] 。 使 用 Xen 实现 的 这 
项 提案 假定 一 个 中 心 式 控制 ， 通 过 虚拟 机 和 虚拟 链 路 的 实例 化 来 创建 网 络 分 片 。 因 
此 ， 在 接收 到 分 配 一 个 新 的 虚拟 网 络 的 一 条 请 求 时 ， 系 统 联系 每 个 被 选中 的 物理 节 
点 ， 并 实例 化 构建 整个 网 络 所 需 的 虚拟 机 以 及 使 用 互联 网 协议 (IP) 隧道 法 在 这 些 
虚拟 机 之 间 实 例 化 虚拟 链 路 。 在 基于 虚拟 化 的 测试 床 (如 GENI [GEN 08]) 中 发 现 
了 全 局 控制 的 其 他 类 似 方法 。 研 究 人 员 到 测试 床 的 访问 是 通过 所 谓 情报 交换 所 的 一 个 
中 心 实体 加 以 控制 的 。 情 报 交 换 所 监测 各 联邦 测试 床 的 每 个 测试 床上 存在 的 物理 节点 
和 服务 ， 它 被 授权 使 用 它们 ， 并 确定 为 每 名 研究 人 员 调 度 哪个 分 片 [GUI 13], 

具有 全 局 控制 的 实体 也 实施 其 他 功能 ， 如 迁移 [CAR 12], Houid 等 提出 基于 
多 代理 的 一 个 全 局 系统 ， 使 用 迁移 法 动态 地 将 资源 分 配给 虚拟 网 络 [HOU 10]. iX 
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系统 监测 每 个 物理 机 器 上 的 可 用 资源 和 虚拟 网 络 的 变化 的 需求 。 因 为 资源 是 稀有 
的 ， 所 以 物理 节点 上 的 代理 搜索 一 个 类 似 的 物理 节点 ， 接 收 它 的 一 个 或 多 个 虚 
拟 机 。 

全 局 网 络 控制 系统 不 处 理 一 个 物理 机 器 内 的 资源 共享 ， 相 反 它 们 假定 各 分 片 是 
由 一 个 局 部 控制 机 制 隔离 的 。Egi 等 [EGI 07] 深入 考察 了 一 个 平台 的 构造 ， 该 平 
台 是 使 用 Xen 和 Click [KOH 99] 的 虚拟 路 由 器 组 成 的 。 他 们 评估 使 用 局 部 控制 在 
网 络 间 的 隔离 提供 和 公平 性 问题 。 作 者 深入 考察 使 用 不 同 数据 平面 的 情况 ， 假 定 路 
由 通过 一 个 特权 域 和 虚拟 机 实施 ， 并 评估 在 虚拟 网 络 间 共享 资源 的 能 力 。Egi 等 扩 
JE Click 的 CPU 调度 器 ， 评 估 转 发 一 条 报 文 的 CPU 开销 。 但是， 他 们 的 工作 没有 
定义 为 每 个 虚拟 网 络 指派 资源 量 的 管理 能 力 。 同 样 ， 他 们 没有 克服 流量 差异 性 以 确 
保 虚拟 联网 中 的 QoS 问题 。 

局 部 控制 的 一 个 重要 方面 是 保障 虚拟 化 环境 间 的 隔离 。Xen 是 有 问题 的 ， 这 不 
仅 涉 及 输入 /输出 (1/0) 操作 ， 而 且 涉 及 其 他 方面 ， 如 公平 性 [HAN 09, JIN 
09], Jin 等 提出 一 种 机 制 ， 在 Xen 中 确保 L2 和 L3 缓存 利用 率 上 的 公平 性 ，Xen 
hypervisor 的 隔离 机 制 是 没有 考虑 这 一 点 的 [JIN 09 ] 。 所 提供 算法 修改 了 hypervisor 
使 用 的 内 存 页 的 分 配 法 ,使 用 页 着 色 技 术 。 

Mcllroy 和 Sventek 基于 Xen 为 当前 互联 网 提出 一 种 局 部 控制 法 。 要 求 QoS 的 每 
条 流 被 分 配 到 一 个 虚拟 机 ， 称 为 QoS routelet [ MCI 06]。 之 后 每 个 虚拟 机 将 其 QoS 
策略 应 用 到 到 达 流 量 间 。 该 原型 使 用 Xen 实现 ， 没 有 QoS 需求 的 流量 由 特权 域 进 
行路 由 ， 而 带 有 QoS 的 流量 由 虚拟 机 进行 路 由 。 作 者 指出 ， 采 用 这 个 模型 不 能 从 
最 严格 的 意义 上 保障 QoS， 原 因 是 Xen 调度 器 不 适合 这 项 任务 。 这 项 提案 的 另 一 个 
缺点 是 扩展 性 ， 原 因 是 每 条 QoS 流 都 需要 一 个 虚拟 机 。 

为 其 他 虚拟 化 平台 ， 人 们 也 提出 了 隔离 虚拟 环境 的 各 种 机 制 。Trellis [ BHA 
08] 是 在 虚拟 网 络 基础 设施 (VINI) [VIN 10] 上 提供 隔离 的 一 个 系统 ，VINI 是 
类 似 于 PlanetLab 的 一 个 测试 床 。 差 异 是 ， 不 像 PlanetLab，VINI 是 作为 其 项 目 内 的 
一 个 专用 测试 床 发 挥 作用 的 。 因 为 VINI 是 基于 操作 系统 级 上 的 虚拟 化 的 ， 即 所 有 
虚拟 环境 共享 相同 内 核 ， 则 相 比 采用 平面 隔离 的 Xen 而 言 ， 使 用 Trellis 的 报 文 转发 
性 能 要 低 [EGI 08 ] 。 这 些 方 法 [BHA 08, WAN 08, ZEC 03] 的 主要 问题 是 所 有 
控制 平面 都 执行 在 同一 操作 系统 上 ， 且 缺乏 为 每 个 虚拟 网 络 创 建 差异 性 数据 平面 的 
支持 。 

Genesis 是 创建 带 有 不 同 架构 的 虚拟 网 络 的 一 个 内 核 [KOU 01 ] 。 基 于 层次 结 
构 和 继承 的 概念 ，Genesis 提出 应 该 基于 一 个 “root” (HR) 网 络 创 建 不 同 的 “ 孩 
子 ” 虚 拟 网 络 ， 孩 子 网 络 从 根 网 络 继承 共同 特点 。 类 似 于 Trellis, Genesis 基于 这 
样 的 前 提 ， 即 所 有 控制 平面 都 工作 在 同一 操作 系统 上 。 但 是 ， 对 于 每 个 虚拟 网 络 ， 
它 允 许 使 用 不 同 策略 和 QoS 机 制 。 因 为 Genesis 是 在 用 户 级 实现 的 ， 并 插入 一 个 虚 
拟 化 层 ， 所 以 它 提供 低 的 路 由 性 能 。 
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男 一 个 虚拟 化 平台 是 OpenFlow [MCK 08 ] ， 它 基于 简单 转发 单元 组 成 的 一 个 
网 络 和 一 个 中 心 式 控制 平面 。 为 在 虚拟 网 络 间 共 享 转发 单元 的 物理 资源 ，OpenFlow 
提供 FlowVisor 工具 [SHE 10], FlowVisor 可 被 看 作 转 发 单元 和 控制 平面 之 间 的 一 
个 透明 代理 。FlowVisor 在 转发 单元 中 控制 CPU 和 内 存 的 使 用 以 及 网 络 空间 的 分 隔 ， 
即 哪 些 特征 定义 每 个 虚拟 网 络 。 

Keller 和 Green [KEL 08] 提出 基于 Linux 和 Click 创建 一 个 共享 数据 平面 的 另 
一 种 方法 。 在 这 项 提案 中 ， 每 个 虚拟 网 络 可 创建 其 自己 的 数据 平面 ， 基 于 通用 假 
设 ， 即 在 Click 中 进行 报 文 转发 。 但 是 ， 作 者 没有 讨论 控制 平面 间 资 源 的 公平 分 割 
问题 。 

在 本 章 中 描述 的 提案 将 焦点 放 在 局 部 控制 和 全 局 控制 上 。 局 部 控制 是 由 在 Xen 
网 络 中 每 个 物理 节点 内 的 隔离 和 SLA 的 工作 实施 的 。 全 局 控制 自治 地 使 用 分 布 式 
容错 算法 解决 物理 节点 失效 ， 同 时 将 寄居 在 过 载 物理 节点 上 的 虚拟 网 络 迁移 。 


5.2 使 用 Xen 进行 报 文 转发 中 的 挑战 


使 用 Xen 的 虚拟 网 络 模型 认为 ， 虚 拟 机 就 像 路 由 器 一 样 动作 ”。 一 个 虚拟 网 络 
被 定义 为 由 虚拟 路 由 器 和 链 路 组 成 的 一 个 集合 ， 是 在 物理 基础 设施 之 上 创建 的 ， 如 
图 5. 1 所 示 。Xen 架构 是 由 一 个 hypervisor、 虚 拟 机 [ 称 作 用 户 域 (domUs) ] 和 一 
个 特权 虚拟 机 CERTE dom0) 组 成 的 。Xen hypervisor 控制 物理 资源 的 访问 ， 并 处 理 
由 各 个 域 实施 的 170 操作 。dom0 是 直接 访问 硬件 的 一 个 特权 域 。 因 为 dom0 是 一 个 
驱动 域 ， 所 以 它 存储 所 有 物理 设备 驱动 ， 并 在 放置 于 domUs 的 虚拟 驱动 和 物理 设 
备 之 间 创 建 一 个 接口 。 另 外 ，dom0 也 是 管理 员 和 hypervisor 之 间 的 管理 接口 ， 创 建 
虚拟 机 、 改 变 Xen 参数 并 管理 Xen 操作 [ PIS 11]. 


Xen 架构 


dom0 B (e 
管理 和 驱动 domU, domU, 


| 











OG 点 所 路 由 器 — 物理 链 路 
—— 网 络 ! 的 虚拟 链 路 
名 物理 路 由 器 一 -网络 2 的 虚拟 链 路 


图 5.1 带 有 两 个 虚拟 网 络 的 Xen 架构 


O 这 项 工作 的 一 个 以 前 的 版 本 可 在 参考 文献 [FER] 中 找到 。 
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发 送 和 接收 报 文 是 O 操作 ， 要 求 使 用 位 于 dom0 处 的 设备 驱动 。 因 此 ， 来 
自 domUs 的 所 有 网 络 操作 都 产生 dom0 内 存 和 CPU 的 一 项 额外 负担 。 但 是 ，Xen 
hypervisor 没 有 高 效 地 隔离 dom0 资源 使 用 ， 这 是 Xen 的 一 项 主要 弱点 [MAT 
12], 3&5. 1 表明 ， 通 过 实施 网 络 操作 2 ， 一 个 domU 可 容易 地 增加 dom0 CPU 消 
耗 。 因 为 在 两 个 domUs 之 间 和 在 一 个 domU 和 dom0 之 间 的 数据 传递 消耗 dom0 CPU 
资源 ， 所 以 在 一 个 domU 中 一 项 恶意 的 或 出 现 故障 的 动作 ， 可 容易 地 耗 光 dom0 资 
源 ， 这 就 损害 了 所 有 其 他 域 的 性 能 。 因 此 ， 在 虚拟 化 环境 中 管理 和 控制 的 目标 是 避 
免 在 一 个 虚拟 网 络 上 实施 操作 ， 这 就 影响 其 他 虚拟 网 络 ， 从 而 破坏 了 隔离 前 提 
条 件 。 

表 5.1 在 dom0 上 的 CPU 消耗 

















CPU (96) fi 述 
0.71 +0. 60 在 dom0 上 的 基本 CPU 消耗 
66. 43 +8. 93 从 domU 到 dom0 的 TCP 流量 
85. 49 +5.91 从 domU, 到 domU, 的 TCP 流量 
1.79 £1.01 从 一 台 外 部 机 器 到 domU 的 TCP 流量 


对 于 网 络 操作 ，Xen 常规 架构 不 是 高 效 的 ， 原 因 是 domU 报 文 转发 要 走 一 条 长 
的 和 慢 速 的 路 径 。 如 图 5. 2a 所 示 ， 报 文 到 达 dom0， 之 后 到 达 domU， 并 返回 到 
dom0 ， 被 转发 到 下 一 台 路 由 器 。 平 面 隔离 范 型 是 改进 转发 性 能 的 一 种 替代 方法 ， 
原因 是 报 文 是 由 dom0 中 一 个 共享 的 数据 平面 直接 转发 的 ， 如 图 5. 2b 所 示 。 通 过 
在 dom0 (可 直接 访问 硬件 ) 中 维护 domU 的 当前 转发 表 的 一 个 备份 ， 完 成 平面 
隅 离 。 重 要 的 是 指出 ， 数 据 报 文 是 直接 由 dom 转发 的 ， 但 控制 报 文 要 被 转发 到 
domU ， 来 更 新 控制 平面 。 另 外 ,平面 隔离 不 会 避免 灵活 的 报 文 转发 。 如 果 一 台 
虚拟 路 由 器 要 求 定制 的 操作 (如 监测 或 修改 一 个 特定 的 首部 字段 )， 那 么 它们 不 
能 由 共享 的 数据 平面 得 到 支持 。 在 这 种 情形 中 ,通过 将 一 条 默认 路 由 插入 到 
dom0 内 转发 表 的 虚拟 机 中 (就 像 常 规 报 文 转发 中 所 做 的 那样 )， 可 忽略 平面 
隔离 。 

最 后 ，Xen 也 没有 为 QoS 提供 给 出 任何 方案 。 由 此 ， 必 须 构建 控制 流量 策略 的 
一 种 方案 ， 以 便 在 一 个 虚拟 网 络 内 部 和 虚拟 网 络 之 间 保 障 QoS, 


O 这 些 结果 是 在 一 台 机 器 中 采用 top 工具 测量 得 到 的 ， 这 台 机 器 配 有 Intel Core 2 Quad 处 理 器 、4GB 
RAM 和 Xen 3.4-amd64。 每 个 domU 配置 有 一 个 虚拟 CPU 和 128MB 内 存 ， 且 dom0 配 有 一 个 虚拟 
CPU， 没 有 内 存 约束 。 每 个 虚拟 CPU 与 一 个 独占 的 物理 CPU 相关 联 。TCP 流量 是 采用 Iperf 产生 的 。 基 
本 CPU 消耗 指 在 domUs 中 没有 操作 时 dom0 中 的 CPU 使 用 情况 。 假 定 95% 的 一 个 置信 区 间 。 
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图 5.2 在 基于 Xen 的 网 络 中 的 报 文 转发 
a) 常规 报 文 转发 b) 使 用 平面 隔离 


5.3 控制 域 0 共享 的 资源 


域 0 资源 (如 CPU、 内 存 和 带宽 ) 是 由 lO 操作 中 的 虚拟 路 由 器 共享 的 。 因 为 
在 这 种 资源 共享 中 没有 严格 控制 ， 所 以 在 报 文 转发 过 程 中 这 些 资源 会 被 耗 光 ， 则 就 打 
破 了 虚拟 路 由 器 间 的 隔离 。 隔 离 失效 会 诱发 安全 问题 和 SLA 违规 。 因 此 ， 为 在 每 个 
物理 节点 中 保障 每 个 虚拟 网 络 SLA 而 开发 局 部 控制 机 制 ， 就 是 必要 的 。 所 给 出 控制 器 
的 主要 目标 是 向 Xen 虚拟 化 平台 提供 隔离 ， 方 法 是 控制 dom 资源 的 使 用 。 之 后 ， 依 据 
物理 机 器 的 管理 员 所 设置 的 参数 ， 这 个 控制 器 分 配 和 监测 所 有 domUs 使 用 的 物理 资源 。 

所 给 出 的 控制 器 称 作 最 大 使 用 控制 器 ( MUC) ， 为 每 个 虚拟 网 络 预 留 固定 量 的 
资源 和 称 作 权重 的 一 个 参数 。 这 个 固定 的 资源 预 留 ， 保 障 一 个 最 少量 的 资源 可 用 于 
每 个 虚拟 网 络 ， 而 权重 则 指定 在 虚拟 网 络 间 如 何 分 配 空闲 资源 。 只 要 存在 空闲 资 
源 ， 它 们 就 被 提供 给 有 需求 的 网 络 。 实 际 上 ， 这 是 选中 用 来 控制 物理 资源 使 用 率 的 
策略 。 另 外 ， 这 个 控制 器 是 基于 资源 监测 和 惩罚 措施 的 。 如 果 应 用 惩罚 措施 ， 则 其 
严重 程度 依据 的 是 每 个 虚拟 网 络 SLA 值 的 违反 程度 。 同 样 ， 它 支持 平面 隔离 范 型 。 
因此 ， 独 立 于 数据 平面 位 置 ， 各 个 资源 被 正确 地 加 以 监测 。 
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下 面 分 析 假 定 所 有 domUs 都 是 不 可 信 的 ， 因 为 每 个 domU 都 有 一 个 不 同 的 管理 
员 。 因 此 ， 一 个 domU 或 有 意 或 无 意 地 伤害 其 他 域 。 在 所 提供 模型 中 ， 一 个 domU 是 
亚 意 的 或 呈现 一 个 不 可 接受 的 行为 。 当 一 个 domU 有 意 地 执行 破坏 虚拟 网 络 间隔 离 的 
一 个 动作 并 之 后 损害 其 他 domUs 的 性 能 时 ， 就 发 生 了 一 个 亚 意 行为 。 另 外 ， 一 个 不 
可 接受 的 行为 ， 是 来 自 一 个 domU 的 超过 保留 给 它 的 资源 量 的 任何 尝试 ， 它 试图 使 用 
所 有 的 dom0 空闲 资源 。 这 个 行为 可 能 干扰 其 他 域 的 操作 。 因 为 这 两 种 行为 都 是 有 害 
的 ， 所 以 执行 任何 一 种 行为 的 虚拟 机 均 被 分 类 为 敌对 域 ， 而 其 他 域 被 分 类 为 普通 域 。 

下 面 介 绍 最 大 使 用 控制 器 。 

MUC [FER 11] 分 配 并 检测 每 了 秒 dom0 资源 的 总 体 使 用 情况 Ur). 和 每 个 虚拟 
路 由 器 i 的 相应 使 用 情况 U, (t)o domO 资源 可 采用 固定 预 留 或 应 需 的 方式 进行 分 配 。 
基于 固定 预 留 的 分 配 是 由 管理 员 处 理 的 ， 它 为 每 个 domU 预 留 一 个 固定 量 的 dom0 资 
源 ， 为 每 个 虚拟 网 络 确 保 最 小 的 质量 。 相 反 ， 应 需 分 配 目标 在 于 资源 使 用 率 方面 的 高 
效率 ， 因 为 MUC 将 空闲 资源 重新 分 布 在 domUs 间 ， 其 需求 大 于 预 留 的 固定 量 。 除 了 
没有 在 使 用 的 预 留 资源 外 ， 空 闲 资源 还 由 非 预 留 资源 组 成 。 因 此 ， 控 制 器 的 一 个 前 提 
条 件 是 只 要 存在 一 个 需求 ， 就 提供 一 个 虚拟 路 由 器 i 的 固定 资源 ， 表示 为 总 domO Yt 
WRU) 的 一 个 百分比 a;。 另 一 个 前 提 条 件 是 依据 以 前 由 管理 员 指 派 的 优先 级 ， 应 需 
地 将 所 有 空闲 资源 分 配给 虚拟 路 由 器 。 这 个 优先 级 称 作 权重 ， 表 示 为 只， 其 中 
iWeZl 1<WW<1000|。 一 个 虚拟 路 由 器 的 权重 越 高 ， 则 它 在 dom0 上 具有 访问 权限 
的 空闲 资源 就 越 多 。 因 此 ， 应 需 分 配 为 每 个 虚拟 网 络 提供 一 项 附加 的 区 分 性 服务 。 

通过 观测 在 每 个 输出 物理 链 路 上 传输 的 比特 体 量 ，MUC 监测 带宽 。 如 果 一 台 
路 由 器 在 一 条 输出 链 路 中 超过 分 配 的 带宽 ， 它 就 受到 惩罚 ， 丢 弃 它 的 报 文 (EM 
条 链 路 上 发 送 的 ) 。 

基于 通过 domO 传递 的 报 文体 量 ， 监 测 dom0 中 的 CPU 使 用 率 。 之 后 ， 被 监测 
的 数据 以 每 项 网 络 操作 的 开销 加 权 。 依 据 报 文 源 和 目的 地 ， 指 派 报 文 处 理 开销 ， 因 
为 如 表 5. 1 所 示 ， 一 条 报 文 对 dom0 CPU 利用 率 的 影响 取决 于 报 文 是 来 自 一 个 
domU 还 是 去 往 domU ， 或 进出 一 台 外 部 机 器 。 如 果 一 台 路 由 器 超过 被 分 配 的 CPU, 
则 它 受 到 惩罚 。 因 此 ， 为 避免 产生 不 公平 CPU 惩罚 的 攻击 ， 重 要 的 是 为 每 项 测量 
操作 定义 负责 的 域 。 在 domUs 之 间 传 递 时 ， 发 送 报 文 的 domU 负责 所 有 的 CPU FF 
销 ， 以 避免 一 个 敌对 域 发 起 非 请 求 流量 耗 光 一 个 共同 域 的 CPU 资源 。 此 外 ， 在 
domU 和 domO 之 间 传 递 时 ， 使 用 CPU 的 开销 总 是 由 domU 负责 。 

通过 观测 每 台 虚 拟 路 由 器 的 转发 表 尺 寸 ，MUC 控制 内 存 使 用 率 。 如 果 domO 的 
内 存 达 到 临界 限 ， 则 使 用 表 或 过 滤器 的 所 有 虚拟 路 由 器 ， 如 果 占 用 的 内 存 大 于 固定 
预 留 量 ， 则 受到 惩罚 ， 方 法 是 通过 丢掉 (disposal) 一 定 百分比 的 路 由 。 为 避免 报 
文 丢失 ， 添 加 一 条 到 虚拟 路 由 器 的 默认 路 由 。 匹 配 一 条 被 丢弃 路 由 的 各 条 报 文 ， 由 
虚拟 路 由 器 转发 ， 而 不 是 由 dom 丢弃 。 结 果 ， 降 低 路 由 表 尺 寸 不 会 诱发 报 文 丢 
弃 ， 但 仪 导致 降低 的 转发 性 能 ， 原 因 是 报 文 由 domU 转发 ， 而 不 是 由 dom0 转发 。 
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1. 惩罚 计算 

通过 丢弃 它们 的 报 文 或 路 由 ， 对 敌对 域 实施 惩 神 。MUC 搜索 和 收敛 到 一 个 于 
弃 概 率 ， 依 据 固 定 预 留 和 权重 值 ， 由 之 平衡 虚拟 路 由 器 间 dom0 资源 的 使 用 。 为 避 
免 当 在 物理 机 器 上 还 有 空闲 资源 时 的 丢弃 情况 出 现 ， 一 台 虚 拟 路 由 器 受到 惩罚 ， 仅 
当 其 使 用 率 超过 其 固定 的 预 留 值 并 且 总 资源 利用 率 达到 一 个 临界 水 平 ， 这 由 dom0 
中 总 资源 R(t) 的 一 个 百分比 B 给 定 。 在 没有 空闲 资源 的 条 件 下 ， 使 用 的 资源 大 于 
其 固定 预 留 值 的 所 有 节点 都 要 受到 惩罚 ， 以 避免 其 他 虚拟 路 由 需 受 到 伤害 。 假 定 总 
的 非 预 留 资源 由 D(1) =R(t) - yiaiR(1) 给 定 ， 那 么 在 :+7 中 的 丢弃 概率 由 
中 ,(t+7T) 给 定 ， 依 据 下 列 算法 5.1 进行 更 新 。 

算法 5.1 惩罚 计算 的 启发 式 方法 


input : ®;(t), Wi, ai, R(t), U (t), U;(t), D(t), 8 
output: Bi;(t + T) 
1 if (a; - R(t) < Ui;(t)) or ($;(t) > 0) then 
2 if (o; - R(t) « Ui(t)) then 
3 % Calculate an idle resource usage indicator 
, Ti(t) = (Ui(t) — ai - R(t))/D(t) 
5 if (3 - R(t) < U(t)) then 
6 % Since there are no idle resources, some networks can be 
damaged. Thus, the punishment is increased. 











7 if ($;(t) > 0) then 
8 | Bi(t+T) = min(®\(t)+(1+ Ti (t) A+): aes 1) 
9 else . 
10 | $;(t +T) = oj, i, % Set initial punishment 
11 end 
12 else 
13 % Reduce punishment, because there are idle resources 
14 ®;(t + T) = 
maz(®i(t) — (1+ (1 — Yi(t))) (1 — d): me 
15 end 
16 else 
17 % Reduce punishment, because the router used only its fixed 
resources. : 
18 i(t + T) = maz(®;(t) -3-(1— t) 342.0) 
19 end 
20 else 


a | Bi(t+T)=0 
22 end 
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重要 的 是 即使 一 个 domU 比 其 固定 预 留 值 消耗 较 少 的 资源 ， 为 避免 不 稳定 性 ， 
惩罚 也 不 会 立刻 重 置 。 同 样 ， 为 防止 由 于 CPU 过 载 而 由 虚拟 路 由 器 产生 的 流量 中 
断 其 他 dom0 服务 ， 一 个 由 滞后 效应 的 惩罚 总 是 恒定 地 应 用 在 虚拟 机 的 输出 接口 。 
这 样 的 惩罚 应 该 足够 小 ， 从 而 不 会 影响 低 体 量 传输 ， 但 应 该 防止 一 个 domU 消耗 掉 
所 有 的 dom0 资源 。 

2. MUC 原型 描述 和 分 析 

在 存在 敌对 域 的 情况 下 ， 通 过 分 析 MUC 的 有 效 性 来 验证 控制 器 共享 资源 的 效 
R, RHIC 和 Python 实现 了 一 个 原型 ， 且 控制 器 能 够 监测 dom0 的 带宽 和 CPU. Wi 
测 和 惩罚 是 采用 Iptables 实现 的 。 为 动态 地 估计 物理 链 路 的 容量 ， 使 用 Mii-tool。 
采用 MUC 监测 CPU 利用 率 ， 方 法 是 估计 每 项 网 络 操作 在 dom0 中 的 开销 ， 这 包括 
domUs 之 间 (从 domU 到 domO 以 及 相反 方向 ， 从 domU 到 一 台 外 部 机 器 以 及 相反 
方向 ) 和 外 部 机 器 之 间 的 通信 。 输 出 虚拟 接口 中 的 滞后 效应 惩罚 值 估计 为 0. 0009 , 
这 依据 的 是 报 文 速率 ， 严 重地 影响 domO 的 响应 时 间 。 

测试 是 运行 在 一 台 机 器 上 的 ， 此 后 称 为 路 由 器 ， 装 备 有 一 个 Intel Core2 Quad 
处 理 器 ， 有 4GCB RAM, 5 个 物理 千 兆 以 太 网 接口 ， 使 用 Xen 3. 4- amd64 路 由 器 模 
式 。 实 例 化 的 所 有 4 台 虚 拟 机 都 运行 Linux 内 核 2.6 26-2 的 Debian 操作 系统 ， 每 
个 虚拟 机 都 有 一 个 虚拟 CPU, 128MB 内 存 和 5 个 网 络 接口 。 依 据 测试 不 同 ，dom0 
中 虚拟 CPU 数 是 变化 的 ， 且 对 这 个 域 没有 内 存 约束 。 物 理 CPU 是 在 所 有 虚拟 CPU 
间 共 享 的 ， 且 hypervisor 动态 地 将 虚拟 CPU 映射 到 真实 CPU。 测 试 使 用 两 台 外 部 机 
器 产生 和 接收 报 文 ， 每 台 机 器 有 一 个 1Gbit/s 的 网 络 接 口 。 所 有 流量 是 采用 Iperf 产 
生 的 ， 且 结果 有 95% 的 置信 区 间 。 

第 一 项 测试 评估 安全 数据 平面 更 新 的 可 用 性 。 如 果 domU 安全 地 更 新 了 其 数据 
平面 ， 且 没有 来 自 其 他 域 的 操作 可 防止 其 完成 ， 则 这 项 测试 被 认为 是 成 功 的 。 因 
此 ,分 析 了 在 数据 平面 更 新 过 程 中 MUC 利用 率 的 影响 。 测 试 由 从 domU, 更 新 数据 
平面 的 最 多 三 次 尝试 组 成 ， 而 domU, 向 domU, 发 送 TCP 流量 。 该 场景 仿真 一 个 敌 
对 虚拟 路 由 器 domU, 尝试 防止 一 个 正常 路 由 器 domU, 正常 地 操作 。 在 MUC rp, a 
试 更 新 数据 平面 的 domU, A a, =0.5， 而 敌对 方 domU, Æ a, =0.5。 所 有 domUs 都 
有 权重 W =500, 

图 5. 3a 和 图 5. 3b 分 别 给 出 一 个 数据 平面 更 新 的 成 功 概率 和 两 台 虚 拟 机 之 间 传 
输 的 数据 体 量 。 当 使 用 常规 平面 隔离 时 ， 即 使 在 dom0 中 存在 大 量 CPU, 来 自 
domU, 的 一 次 攻击 也 是 有 效 的 。 但 是 ，MUC 增加 了 一 次 成 功 数据 平面 更 新 的 概 
率 ， 高 达 100% 。 实 际 上 ，MUC 限制 来 自 domU, 的 攻击 流量 ， 避 免 了 domo 资源 
的 过 载 。 同 样 ，MUC 预 留 domU, 要 求 的 CPU 资源 来 发 送 更 新 消息 并 实施 安全 平 
面 隔离 所 需 的 密码 学 操作 。 图 5. 3b 给 出 从 domU, 到 domU, 的 MUC 惩罚 流量 ， 
确保 dom0 CPU 资源 不 被 耗 光 。 因 此 ， 当 使 用 MUC 时 取得 的 吞吐 量 ， 就 小 于 当 
在 dom0 中 仅 有 一 个 CPU 时 使 用 安全 数据 平面 更 新 的 情况 。 当 dom0 中 的 CPU 数 
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增加 时 ，CPU 约束 条 件 就 得 到 放松 ,那么 使 用 MUC 的 吞吐 量 就 增加 。 实 际 上 ， 
MUC 吞吐 量 甚至 大 于 安全 数据 平面 隔离 的 吞吐 量 。MUC 确保 来 自 domU, 的 固定 
资源 ， 那 么 domU, 可 处 理 数据 平面 更 新 和 由 domU, 启动 的 TCP 连接 的 ACK 消 
息 。 对 于 吞吐 量 而 言 ， 丢 失 ACK 消息 的 影响 要 比 MUC 对 流量 施加 的 限制 要 差 ， 
这 是 因为 CPU 消耗 导致 的 。 因 此 ， 作 为 带 有 控制 器 模块 的 所 提供 架构 的 一 个 结 
果 ，MUC 确保 以 高 可 用 性 实施 一 次 安全 的 数据 平面 更 新 ， 同 时 确保 虚拟 机 之 间 
的 一 条 高 性 能 连接 。 








O w/0 MUC O w/0 MUC 
[] MUC 口 MUC 


fint tit (Gbius) 


Cor N U A U 


9 I CPU  2CPUs 3CPUs 4CPUs I CPU 2CPUs 3CPUs 4 CPUs 


a) b) 


Fg 5.3 当 使 用 MUC 时 安全 数据 平面 更 新 的 可 用 性 
a) 成 功 数 据 平面 的 概率 b) domU, 和 domU, 之 间 的 吞吐 量 


第 二 项 测试 评估 使 用 带 有 平面 隔离 的 MUC 时 的 传输 时 延 。 相 比 于 没有 任何 控 
制 的 平面 隔离 范 型 的 使 用 情况 ,评估 了 MUC 的 影响 。 这 项 测试 测量 依据 dom0 T. 
作 负 载 由 MUC 额外 负担 导致 的 时 延 。 因 为 在 资源 共享 中 没有 评估 公平 性 ， 以 
100% 的 一 个 固定 预 留 值 ， 创 建 一 个 虚拟 网 络 。 该 测试 由 两 个 试验 组 成 ， 它 使 用 
Ping 测量 两 台 外 部 机 器 之 间 的 往返 时 间 (RIT) 。 在 第 一 个 试验 中 ， 没 有 背景 流量 ， 
而 在 第 二 个 试验 中 ， 在 这 两 台 外 部 机 器 之 间 产 生 背 景 TO 流量 。 在 图 5. 4a 中 给 出 
两 个 试验 的 结果 。 在 没有 背景 流量 情况 下 ， 数 据 传输 给 出 两 种 配置 的 低 RTT. AS 
过 ， 当 存在 背景 流量 时 ，dom0 CPU 是 过 载 的 ， 这 就 增加 了 系统 的 响应 时 间 ， 结 果 
就 增加 了 RTT。 结 果 表 明 ， 由 MUC 提供 的 CPU 和 带宽 控制 ， 防 止 dom0 CPU 变 得 
过 载 。 由 此 ，MUC 给 出 比 常 规 平 面 隔离 配置 小 8 倍 的 一 个 RTT。 重 要 的 是 指出 ， 
即使 MUC 控制 会 诱发 丢弃 报 文 ， 这些 丢 弃 不 会 导致 对 流量 的 大 影响 ， 如 图 5. 4b 
所 示 。 

第 三 个 试验 涉及 共享 输出 链 路 。 为 做 到 这 一 点 ， 在 不 同 虚拟 网 络 上 的 一 个 
domU 和 一 台 外 部 机 器 发 起 与 另 一 台 外 部 机 器 的 通信 。 因 此 ， 两 个 网 络 共 享 到 目的 
机 器 的 输出 链 路 。 两 个 网 络 均等 地 访问 物理 资源 ， 在 两 台 虚 拟 路 由 器 中 o =0.5 和 
W=500, Ai fh MUC， 使 用 层次 结构 令 牌 桶 (HTB)， 也 测试 了 使 用 流量 控制 
(TC) 的 带宽 控制 。HTB 创建 两 个 输出 队列 ， 每 个 队列 有 512Mbit/s 的 最 小 带宽 和 
高 达 1Gbit/s 的 最 大 带宽 ,来 仿真 与 MUC 相同 的 资源 使 用 策略 。 当 domU 以 
1. SGbit/s 的 最 大 速率 发 送 用 户 数据 报 协议 (UDP) 流量 和 1500B 的 报 文 ， 而 外 部 
机 器 发 送 TCP 流量 时 ， 图 5. Sa 和 图 5. 5b 给 出 所 得 到 的 结果 。 在 开始 ， 在 网 络 中 没 
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图 5.4 MUC 对 RTT 的 影响 
-a) MUC 对 在 dom0 上 有 一 个 CPU 的 两 台 外 部 机 器 之 间 RTT 的 影响 
b) 在 dom0 上 有 一 个 CPU 的 两 台 外 部 机 器 之 间 的 背景 流量 吞吐 量 
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图 5.5 使 用 MUC 的 资源 共享 控制 
a) 具有 来 自 domU 的 UDP 流量 和 来 自 外 部 机 器 的 TCP 流量 的 MUC 
b) 具有 来 自 domU 的 UDP 流量 和 来 自 外 部 机 器 的 TCP 流量 的 TC 


结果 表明 ， 当 没有 资源 共享 控制 时 ， 外 部 机 器 流量 的 优先 级 高 于 domU 流量 。 
当 使 用 平面 隔离 时 ， 这 是 一 次 隔离 失效 ， 原 因 是 外 部 流量 影响 由 一 个 domU 产生 流 
量 的 最 大 体 量 。 因 此 ， 属 于 一 个 敌对 网 络 的 一 台 外 部 机 器 ， 可 注入 流量 损害 另 一 
虚拟 网 络 的 一 台 虚拟 路 由 器 的 性 能 。 在 这 个 试验 中 ， 可 用 资源 是 均等 地 在 这 两 个 虚 
拟 网 络 之 间 共 享 的 。 那 么 ， 两 个 网 络 应 该 有 一 个 相等 的 链 路 分 片 ， 这 意味 着 每 个 虚 
拟 网 络 有 512Mbits。 虽 然 MUC 引入 比 TC 大 得 多 的 流量 方差 ， 但 就 每 个 虚拟 网 络 
512Mbit/s 的 理想 速率 而 言 ，MUC 平均 吞吐 量 比 TC 平均 吞吐 量 有 一 个 较 小 的 误差 
(eror) 。 事 实 上 ， 如 果 对 外 部 机 器 进入 流 (inflow) 没有 控制 ， 则 来 自 虚拟 机 的 
UDP 流量 是 没有 特权 的 (underprivileged) ， 且 不 能 取得 高 速率 。 因 此 ， 就 512Mbit/s 
的 理想 速率 而 言 ， 对 UDP 流量 ，MUC 控制 给 出 - 14. 2% 的 最 大 吞吐 量 误差 ， 对 于 
TCP 流量 给 出 -0.62% 的 最 大 误差 。 另外， 就 512Mbit/s 的 理想 速率 而 言 ， 对 UDP 流 
Ht, TC 控制 给 出 —52. 18% 的 最 大 吞吐 量 误差 ， 对 于 TCP 流量 给 出 +35. 68% 的 最 
大 误差 。 这 个 结果 表明 ， 在 链 路 资源 共享 方面 ，MUC 给 出 较 高 的 公平 性 ， 原 因 是 
它 适应 到 了 Xen 架构 特性 。 
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5.4 小结 


本 章 解 释 了 控制 虚拟 网 络 SLA 的 一 种 开发 的 算法 。 这 项 提案 的 内 部 操作 及 其 
接口 都 详细 提供 给 引导 平面 ， 用 来 依据 期 望 的 策略 和 原 语 ， 控 制 虚拟 网 络 环境 。 此 
外 ， 结 果 表明 ， 对 指派 给 每 台 虚 拟 路 由 咒 的 资源 编排 到 每 个 虚拟 网 络 是 可 能 的 。 
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第 6 音 引导 系统 


人 们 提出 自治 联网 [DOB 06, GAÏ06, CHE 06] 来 处 理 通信 网 络 的 日 渐 增 加 
的 复杂 性 ， 且 它 是 自治 计算 中 的 一 个 特定 专题 [KEP 03 ] ， 是 由 IBM 杜撰 的 一 个 术 
语 ， 通 过 支持 系统 的 自 管理 来 处 理 它们 的 复杂 性 。 目 的 是 将 处 理 要 求人 类 干预 的 任 
务 (如 设置 管理 策略 ) 和 促进 任务 的 自动 化 (如 系统 配置 和 优化 、 灾 难 恢复 和 安 
全 ) 的 网 络 管理 人 员 解 放出 来 。 

自 管理 也 是 鼓吹 未 来 互联 网 应 该 采用 架构 的 多 元 论 方法 的 一 个 核心 要 素 [TUR 
05 ] 。 这 种 多 元 论 方法 表明 ， 网 络 提 供 商 应 该 被 分 成 服务 生产 商 和 基础 设施 提供 商 
[FEA 07] ， 且 为 做 到 这 一 点 应 该 采用 虚拟 化 [AND 05 ] 。 在 这 些 网 络 中 ， 用 户 向 
服务 提供 商 请 求 网 络 服 务 ， 后 者 在 网 络 基层 上 实例 化 虚拟 网 络 (VN) ， 网 络 基层 
由 基础 设施 提供 商 提供 。 每 个 VN 可 有 其 自己 的 协议 ,确保 运行 于 其 上 之 服务 目标 
的 实现 。 此 外 ，VN 的 隔离 是 一 项 需求 ， 即 一 个 VN 的 操作 运行 不 应 该 干扰 其 他 VN 
的 那些 操作 运行 。 由 于 满足 这 些 需 求 所 需 的 复杂 性 ， 为 将 资源 以 一 种 最 优 的 、 鲁 棱 
的 和 安全 的 方式 分 配给 各 VN， 是 非常 有 挑战 性 的 [ZHU 06, YU 08, HOU 08]. 

Horizon 项 目 目标 是 定义 和 确认 基于 多 元 论 和 知识 平面 (KP) [ CLA 03] 的 一 
个 新 网 络 架 构 ， 具 有 基于 高 级 指令 、 自 动 检测 和 问题 纠正 的 自我 重新 配置 能 力 。 为 
取得 这 样 的 目标 ， 就 有 必要 有 一 个 引导 平面 (PP) 负责 决策 过 程 。 本 章 报告 通过 
为 Horizon 项 目 中 提出 的 PP 使 用 一 个 自 管 理 系统 得 到 的 结果 ， 目 的 是 决定 使 用 控 
制 和 管理 实体 ， 这 些 实体 将 网 络 和 服务 的 语 境 考 虑 在 内 。 

目标 是 在 Horizon 项 目的 设计 中 采用 PP， 通 过 使 用 一 个 多 代理 系统 而 处 理 VN. 
Horizon 架构 中 的 引导 方法 是 基于 引导 代理 (PA) 的 ， 它 们 可 以 联邦 方式 工作 。 

本 章 组 织 如 下 。6. 1 节 在 自治 引导 系统 (APS) 中 引入 一 些 概念 。6. 2 节 讨 论 
PP 功能 和 需求 。6.3 节 给 出 一 个 初步 的 PP dil, m 6.4 节 给 出 引导 代理 架构 。 
6.5 节 介 绍 用 来 验证 自 管 理 系统 的 测试 床 。 在 本 节 也 给 出 用 于 第 一 个 测试 床 的 工具 
和 一 些 初步 试验 。6. 6 节 给 出 这 个 初步 的 自 管理 系统 的 描述 和 多 代理 模型 。6.7 节 
报告 最 终 试验 的 结果 。6. 8 节 给 出 第 二 个 自 管理 器 型 多 代理 系统 ， 但 是 ， 焦 点 放 在 
VN 的 自 愈 方面 。 在 这 个 语 境 中 实施 了 一 组 试验 。 最 后 ，6. 9 节 给 出 小 结 。 


6.1 自治 引导 系统 


APS， 正 如 最 初 由 IBM 宣言 中 所 定义 的 [IBM 06], 已 经 为 单个 系统 的 管理 系 
统 所 采用 ， 且 假定 它们 可 实施 涵盖 各 种 节点 、 链 路 和 服务 的 不 同 管理 任务 。 不 同 标 
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准 的 存在 ， 使 设计 单个 自治 控制 环 是 不 现实 的 ， 这 样 的 控制 环 自动 地 调整 不 同 操作 
运行 方面 ， 如 故障 、 配 置 、 计 费 、 性 能 和 安全 (FCAPS ) 。 这 意味 着 存在 为 每 个 方 
法 定义 一 个 或 多 个 自治 环 的 需求 ， 从 而 使 每 个 控制 环 的 设计 可 以 被 简化 。 此 外 ， 网 
络 的 操作 运行 是 所 有 控制 环 交 互 作用 的 结果 ， 但 它们 也 许 有 冲突 的 目标 。 例 如 ， 使 
用 一 个 重型 加 密 方案 提高 安全 性 的 一 个 自治 安全 组 件 ， 可 能 要 求 太 多 的 计算 和 带 
T, 将 最 大 网 络 吞 吐 量 限制 到 服务 水 平 协议 (SLA) 建立 的 性 能 水 平 之 下 。 另 外 ， 
如 果 两 个 子 网 络 具 有 冲突 的 配置 ， 或 者 需要 一 个 重新 协商 和 重新 配置 过 程 ， 或 者 在 
这 两 个 子 网 络 的 边界 中 必须 安装 转换 服务 (网关) 。 

为 解决 这 样 的 一 个 问题 ， 提 出 一 个 新 的 平面 PP， 支持 各 种 自治 控制 环 的 协作 ， 
确保 各 决策 不 会 冲突 。 这 种 协作 (引导 ) 使 自治 组 件 和 控制 协议 之 目标 的 整体 优 
化 ， 与 为 整个 网 络 定义 的 目标 和 SLA 是 一 致 的 。 引 导 也 意味 着 不 同 运营 商 采 用 的 
自治 管理 域 能 够 自动 地 调整 它们 的 配置 ， 来 处 理 各 网 络 的 联邦 (关系)。 实 际 上 ， 
对 一 个 PP 的 需求 ,来自 具有 不 同 管理 目标 的 几 个 自治 控制 环 的 开发 ， 它 们 自己 是 
不 能 互 操 作 的 ， 从 而 支持 协商 、 联 邦和 部 署 功能 。 因 此 ， 引 导 处 理 各 APS 的 元 管 
理 ， 即 自治 管理 控制 环 的 部 团 和 重新 配置 ， 以 便 支 持 它们 的 互 操作 。 这 是 在 一 个 高 
级 目标 集 的 基础 上 取得 的 ， 这 些 目标 是 为 组 成 该 网 络 的 被 管 网 络 域 定义 的 。 新 SLA 
和 策略 的 协商 ， 在 被 引导 网 络 内 ， 冲 突 的 管理 系统 的 去 活 ( de-activation) ， 后 跟 其 
他 系统 的 激活 和 这 些 系 统 的 迁移 ， 可 能 需要 方便 网 络 的 管理 能 力 。 整 个 引导 过 程 遵 
循 引导 策略 ， 策 略 规定 的 折 中 方案 是 每 个 管理 域 应 该 针对 互 操作 性 做 些 工作 。 


6.1.1 架构 


VN 环境 的 架构 可 由 四 个 平面 组 成 ; 

1) 转发 数据 的 数据 平面 ; 

2) 包含 所 有 控制 算法 的 控制 平面 ; 

3) 管理 平面 (MP) 负责 所 有 管理 功能 ; 

4) PP 实时 地 将 信息 反馈 到 管理 和 控制 平面 。 

数据 平面 负责 将 数据 从 一 个 发 送 者 发 送 到 一 个 或 几 个 接收 者 ， 这 可 在 利用 虚拟 
化 的 一 个 网 络 中 虚拟 化 单元 。 管 理 和 控制 平面 为 故障 检测 、 诊 断 、 安 全 管理 、 路 
由 、 流 控 、 安 全 控制 、 移 动 性 等 提供 算法 。 实 际 上 ， 在 各 节点 处 可 以 有 用 于 同一 任 
务 的 不 同 算法 。 特 定 算法 可 能 取决 于 网 络 和 服务 的 语 境 与 需要 。 

图 6. 1 形象 地 给 出 这 种 自治 架构 的 一 个 通用 视图 ， 其 中 给 出 所 引入 的 PP， 汇 
聚 两 个 特定 子平 面 : KP 和 编排 平面 (OP). KP 应 该 能 够 快速 地 恢复 知识 (对 于 人 馈 
入 控制 和 管理 算法 是 有 用 的 )， 且 OP 应 该 协调 (同步) 网 元 (NE) 。 在 实现 中 这 
两 个 平面 不 能 解 关联 ， 因 此 它们 需要 集成 在 一 起 。 此 外 ，OP 需要 有 引导 智能 过 程 
的 知识 。 这 个 PP 的 首次 实现 是 作为 一 个 元 控制 平面 提出 的 [GAI96 ]。 [GAI96] 
FI [BUL 08a] 详细 描述 这 个 架构 的 一 些 部 分 ，[ BUL 08b] 提出 一 些 例子 。 与 经 典 
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架构 有 关 的 另 一 项 所 提出 改变 ， 是 将 管理 和 控制 平面 融合 到 恰好 一 个 平面 中 ， 得 到 
一 个 三 平面 自治 架构 ( 见 图 6.2)。 














引导 平面 引导 平面 
管理 平面 控制 平面 | | 管理 和 控制 平面 
数据 平面 数据 平面 
图 6.1 自治 架构 的 一 个 通用 视图 图 6.2 面向 引导 的 架构 


PP 使 用 控制 算法 驱动 网 络 。 出 于 这 个 目的 ，PP 必须 将 信息 提供 给 管理 和 控制 
算法 。 总 之 ，PP 必须 编排 管理 和 控制 平面 ， 它 们 配置 数据 平面 。 为 做 到 这 一 点 ， 
一 个 分 布 式 智能 代理 系统 支持 完成 一 个 自 适 应 控制 过 程 ， 原 因 是 每 个 代理 持 有 不 同 
过 程 【行为 和 动态 规划 器 (DP)], ， 这 可 支持 及 时 的 和 最 相关 的 决策 。 各 代理 是 以 
如 下 意义 上 隐 性 地 协作 的 ， 即 考虑 到 邻居 的 状态 ， 它 们 使 用 一 个 共 置 视图 。 


6.1.2 Horizon 项 目的 引导 平面 


作为 对 变化 语 境 的 响应 和 符合 高 级 目标 与 策略 ，PP 的 目标 是 监管 和 集成 网 络 
控制 的 行为 。 它 管理 和 和 集成 所 有 其 他 平面 的 行为 ， 这 确保 了 管理 操作 的 完整 性 ， 
PP 可 被 看 作 一 个 控制 框架 ， 为 取得 所 要 求 的 功能 ， 任 意 数 量 的 组 件 可 被 插入 其 中 。 
此 外 ，PP 可 与 其 他 PP 建立 联邦 。PP 也 优化 网 络 监测 ， 并 确保 当 要 求 所 需 的 知识 
时 ， 它 们 是 可 用 的 。 为 管理 长 期 过 程 ，PP 可 使 用 局 部 可 用 的 知识 或 全 局 知识 。PP 
寄居 几 个 APS， 且 它 涉及 一 个 或 多 个 PA， 一 个 动态 知识 库 (KB) 由 一 个 数据 模型 
和 本 体 集 以 及 合适 的 映射 逻辑 组 成 。 每 个 APS 代表 一 个 虚拟 实体 集 ， 使 用 一 个 共 
同 的 策略 和 知识 集 ， 虚 拟 实体 管理 一 个 虚拟 设备 或 网 络 集合 。 各 APS 访问 一 个 
KB, KB 由 一 个 数据 模型 和 本 体 集 组 成 。 可 使 用 各 行为 ， 各 APS 相互 通信 和 协作 ， 
各 行为 作为 APS 通信 的 桩 (stub). PP 作为 所 有 APS 的 控制 工作 流 ， 确 保 启 动 、 初 
始 化 、 动 态 重新 配置 、 适 配 和 语 境 化 以 及 优化 。PP 支持 服务 生命 周期 管理 ， 它 由 
应 用 服务 和 /或 管理 服务 的 创建 、 部 署 、 激 活 、 修 改 和 任何 相关 操作 组 成 。 各 APS 
支持 如 下 功能 : 

1) 联邦 。 依 据 共 性 高 级 目标 ， 支 持 各 域 (如 APS 域 或 被 引导 的 域 ) 组 合成 一 
个 较 大 的 域 (如 被 引导 的 域 或 两 个 组 合 的 被 引导 域 ) ， 同 时 维持 局 部 自治 。 在 APS 
联邦 中 ， 每 个 APS 负责 其 自己 的 真实 资源 和 虚拟 资源 以 及 由 其 监管 的 服务 。 在 引 
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导 联 邦 中 ， 两 个 被 引导 的 域 联邦 形成 一 个 较 大 的 被 引导 域 。 在 这 样 的 情形 中 ， 联 邦 
应 该 考虑 被 引导 域 的 目标 ， 评 估 联 邦 的 可 行 性 。 

2) 协商 。 在 有 或 无 人 类 介入 的 情况 下 ， 协 商 可 发 生 在 自治 实体 之 间 。 各 APS 
和 PA 是 可 参与 到 协商 中 的 主要 实体 。 每 个 PA 通告 它 提供 的 一 个 能 力 集 〈 即 服务 
和 /或 资源 ) ， 用 于 PP 的 其 他 组 件 。 各 APS 协商 支持 SLA，SLA 是 由 被 管 引 导 域 的 
运营 商定 义 的 。 

3) 分 布 。 各 APS 提供 通信 和 控制 服务 ， 使 任务 被 分 割 成 可 同时 运行 在 PP 内 
多 个 PA 上 的 其 他 任务 。 

4) 监管 。 每 个 APS 可 以 一 种 独立 的 、 分 布 式 的 或 协作 式 模式 ( 即 以 联邦 方 
式 ) 操作 运行 。 为 确定 物理 资源 或 虚拟 资源 和 服务 是 否 需 要 重新 配置 ，APS 收集 
合适 的 监测 数据 。 高 级 目标 、 服 务 需求 、 语 境 、 能 力 和 约束 应 该 被 看 作 决 策 制定 过 
程 的 组 成 部 分 。 

5) 系统 视图 。 各 APS 负 
各 APS 从 各 PA 获取 其 操作 运 


6.1.3 相关 工作 


D. Clark [CLA 03] 提出 构造 能 够 “ 自 管 理 ”的 新 一 代 网 络 ， 给 定 高 级 目标 ， 
而 不 需要 任何 人 类 介入 。Clark 的 KP 建议 可 被 看 作 Horizon 项 目的 管理 、 引 导 和 各 
KP 的 合并 。 其 他 自治 架构 ， 如 由 摩托 罗拉 提出 的 Focale [STR 06], ， 通 过 引入 高 级 
目标 ， 扩 展 KP 概念 。 在 欧洲 FP7 项 目 中 提出 了 其 他 架构 : 

1) 自治 网 络 架构 (ANA) 项 目 ， 在 遗留 互联 网 技术 之 外 ， 探 索 了 组 织 和 使 用 
网 络 的 新 颖 方式 [ANA 11]; 。 焦 点 主要 在 网 络 协议 方面 ， 而 不 在 网 络 的 管理 和 引导 
方面 。 

2) HAGGLE 项 目 处 理 自治 机 会 性 通信 的 一 种 创新 范 型 [HAG 11), 。 通 过 支持 
机 会 性 联网 范 型 ， 它 开发 了 利用 间断 性 连接 的 一 种 跨 层 网 络 架 构 。 在 这 个 项 目 中 ， 
在 设备 层 实现 引导 ， 而 在 Horizon 项 目 中 ， 它 引导 整个 网 络 。 

3) BIONETS 讨论 泛 在 计算 的 挑战 [BIO 11] ， 方 法 是 通过 一 个 自治 的 对 等 通 
信 范 型 ， 适 配 社会 的 动态 性 ， 来 处 理 异 构 性 并 取得 扩展 性 。 

4) CASCADAS 项 目的 目标 是 为 自治 状态 感知 的 通信 和 动态 适 配 服务 开发 组 件 
型 软件 [CAS 11] 。 其 意图 是 针对 自治 和 位 置 感知 的 通信 ， 提 出 基于 自 组 织 分 布 式 
组 件 的 一 种 创新 架构 。 

5) Ambient (周边 环境 ) 网 络 (AN) [NIE 05] 是 一 个 FP6 项 目 ， 意 图 是 为 
将 运行 在 所 有 当前 网 络 物理 基础 设施 之 上 的 无 线 和 移动 网 络 ， 开 发 一 个 软件 驱动 的 
网 络 空间 基础 设施 。 目 标 是 使 各 设备 能 够 相互 连接 ， 并 相互 通过 连接 到 外 部 世界 ， 
同时 提供 无 颖 服务 和 漫游 。 

6) 4D 是 互联 网 的 一 种 新 架构 模型 ， 其 中 各 任务 被 分 成 4 个 平面 : 决策 、 传 


责 管 理 系统 视图 ， 该 视图 使 用 KP 进行 存储 和 传播 。 
行 所 需 的 信息 以 及 通过 接口 获取 服务 和 资源 。 
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播 、 发 现 和 数据 [GRE 05], Æ4D 中 ， 数 据 平面 是 一 个 简单 平面 ， 基 于 由 决策 平 
面 接收 到 的 配置 执行 动作 。 基 于 从 发 现 平面 检索 到 的 信息 ， 做 出 决策 ， 其 中 发 现 平 
面 构造 一 个 物理 资源 视图 。 之 后 使 用 传播 平面 ， 将 决策 发 送 到 数据 平面 。 为 说 明 该 
架构 的 优势 ， 文 章 既 没有 给 出 仿真 也 没有 给 出 实现 ; 但 是 ， 作 者 论证 ， 该 架构 的 主 
要 优势 是 将 决策 集中 到 单个 平面 ， 这 消除 了 多 个 层 处 理 类 似 争议 的 问题 。 在 两 个 主 
要 问题 上 ，4D AEF Horizon。 第 一 ，4D 将 管理 、 控 制 和 各 PP 融合 到 单个 平面 。 
但 是 ， 为 使 自治 网 络 的 设计 成 为 一 项 可 实现 的 任务 ， 它 没有 描述 一 个 框架 或 设计 模 
式 。 第 二 ,4D 没有 处 理 这 样 的 事实 ， 即 不 能 依赖 于 单个 管理 实体 ， 原 因 是 每 个 域 
都 是 由 一 个 不 同 组 织 机 构 运 营 的 。 但 是 PP 考虑 到 这 个 事实 ， 支 持 不 同 管理 域 的 协 
商 和 联邦 。 


6.1.4 引导、 管理 和 虚拟 化 平面 的 相互 作用 


Horizon 自治 管理 架构 模型 由 许多 分 布 式 管理 系统 组 成 ， 涉 及 4 个 平面 : 虚拟 
化 平面 (VP) MP, KP 和 PP。 这 些 分 布 式 系统 一 起 形成 一 个 软件 驱动 的 网 络 控制 
基础 设施 ， 该 设施 将 运行 在 所 有 当前 VN 和 物理 基础 设施 之 上 ， 为 各 设备 相互 连接 
和 相互 通过 连 到 外 部 世界 提供 一 种 方式 ， 同 时 提供 无 颖 服务 。PP 将 通过 行为 与 MP 
交互 ， 各 行为 在 6.3.2 节 定 义 。 每 个 APS 将 控制 一 个 或 多 个 PA， 且 每 个 APS 将 处 
理 与 各 PA (由 该 PA AS) 互 操作 有 关 的 引导 问题 。 为 支持 这 些 任务 ,各 APS 将 
要 求 来 自 VP 的 信息 ， 使 用 一 些 接口 获取 所 要 求 的 信息 。 进 而 各 APS 将 支持 服务 部 
署 ， 启 动 或 关闭 网 络 和 用 户 服务 。APS 定义 新 服务 部 署 上 的 约束 ， 如 将 在 其 上 安装 
服务 的 虚拟 路 由 器 或 网 络 的 集合 ， 以 及 其 执行 参数 中 的 一 些 参 数 。 


6.1.5 在 Horizon 架构 中 引导 平面 的 职责 


PP 的 角色 是 监管 ， 作 为 对 变化 的 引导 感知 预警 的 响应 和 符合 可 应 用 的 高 级 目 
标 与 策略 ， 动 态 地 调整 和 优化 自治 控制 环 。 它 监管 和 集成 所 有 其 他 平面 、 行 为 ， 确 
保管 理 和 控制 操作 的 完整 性 。 除 了 调整 各 PA 的 配置 外 ， 当 需要 时 ，PP 也 可 启动 
和 关闭 各 PA, PP 可 被 看 作 一 个 控制 框架 ， 任 意 数 量 的 组 件 可 插 人 其 中 ， 取 得 所 需 
的 功能 。 对 一 个 PP 的 需求 ,来 自 部 署 具 有 不 同 管理 员 或 管理 目标 的 几 个 自治 控制 
环 ， 在 没有 转换 、 协 商 、 联 邦和 部 署 功能 集 的 条 件 下 ， 它 们 将 不 能 互 操作 。 因 此 ， 
引导 (平面 ) 处 理 各 APS 的 元 管理 ， 即 自治 管理 控制 环 的 部 署 和 重新 配置 ， 以 便 
支持 它们 的 互 操作 。 基 于 为 每 个 管理 网 络 域 (形成 被 引导 的 网 络 ) 定义 的 高 级 目 
标 集 ， 做 到 这 一 点 。PP 确保 管理 系统 的 互 操作 ， 即 使 那些 系统 使 用 不 同 的 高 级 目 
标 和 管理 标准 集 也 是 如 此 。 基 于 通用 信息 模型 的 不 同 数据 模型 之 间 的 本 体 转换 和 映 
射 技术 ， 可 被 用 来 创建 参与 实体 可 协商 、 联 邦 等 的 通用 语言 。 通 过 新 SLA 和 策略 
的 协商 、 冲 突 管理 系统 的 去 活 ， 后 跟 其 他 管理 系统 的 激活 或 在 被 引导 网 络 内 这 种 系 
统 的 迁移 ， 可 做 到 管理 系统 互 操作 的 这 个 过 程 。 整 个 引导 过 程 为 引导 策略 所 监管 ， 
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这 确定 折 中 解决 方法 是 每 个 被 管理 域 将 乐意 为 互 操 作 做 出 让 步 。 


6.2 引导 平面 功能 和 需求 


PP 与 所 有 其 他 平面 协同 工作 ， 因 此 它 要求 如 下 功能 和 需求 : 

1) 考虑 高 级 目标 和 顾客 需要 ， 排 除 低级 技术 和 高 级 商务 细节 。 

2) 域内 和 域 间 引 导 所 需 知识 ， 必 须 及 时 地 由 架构 的 PP 和 有 关 组 件 进 行 传播 。 

3) 为 取得 所 定义 的 SLA， 各 APS 的 响应 时 间 必 须 被 约束 在 某 个 边界 内 。 

4) 与 各 PA 交互 的 接口 ， 即 处 理 环境 变化 和 冲突 。 

5) 支持 各 PA 定义 它们 对 其 他 组 件 和 服务 的 依赖 关系 ， 以 及 它们 的 期 望 操作 
运行 条 件 ( 如 基于 描述 其 所 需 服 务 和 虚拟 资源 的 策略 ) 。 

6) 来 自 不 同 域 的 各 APS 的 协作 ， 要 求 使 用 开放 协议 和 标准 化 的 信息 及 数据 
模型 。 

7) 使 用 VP 和 PP 之 间 的 特定 接口 和 存储 在 KP 中 的 信息 ， 感 知 虚拟 资源 的 

8) 来 自 不 同 PA 中 正 交 目标 的 冲突 的 解决 方案 。 由 此 ，PP 必须 能 够 达成 妥 
协 ， 使 系统 取得 其 目标 。 

9) 所 有 PA 的 工作 流 控 制 ， 确 保 各 PA 的 启动 、 初 始 化 、 语 境 化 和 关闭 。 为 实 
施 有 用 的 功能 ， 它 应 该 控制 一 个 PA 触发 其 他 PA 的 顺序 和 条 件 〈 即 一 个 引导 平面 
是 各 APS 之 间 相 互 作用 的 模式 ) 。 

10) 增强 和 演进 。 在 不 中 断 正常 操作 的 条 件 下 ， 为 取得 所 需 功 能 ，PP 应 该 支 
持 相 关 数 量 的 组 件 择 入 或 退出 。 


6.3 初步 引导 平面 设计 


Horizon 方法 中 的 PPA 概念 由 几 个 APS 组 成 。 每 个 APS 将 负责 几 个 附属 PA 的 
交互 。 为 确保 端 到 端 SLA 和 服务 水 平 目标 (SLO) ， 在 必要 时 ， 各 APS 将 在 其 间 交 
互 。PP 监管 各 APS 的 执行 。 它 作为 所 有 APS 的 一 确保 各 PA 的 启 
动 、 初 始 化、 动态 重新 配置 、 适 配 、 语 境 化 、 优 化 、 组 织 和 关闭 。 为 实施 一 些 有 用 
的 功能 ( 即 一 个 引导 平面 是 各 PA eet 它 也 控制 一 个 PA 触发 其 他 
PA 的 顺序 和 条 件 。DP 负责 那些 任务 。 最 后 ， 每 个 PA 将 与 KP 交互 ， 获 取 有 关 被 
控 行 为 的 信息 ( 见 6.4 节 )。 对 每 个 PA， 这 个 信息 将 是 不 同 的 ， 并 将 组 成 PA 的 共 
置 视图 。 该 共 置 视图 定义 一 个 自治 组 件 操 作 所 需 的 信息 ， 且 必须 从 这 个 组 件 收 集 
信息 。 

PP 组 成 一 个 或 多 个 APS， 每 个 域 一 个 PP。 每 个 受 控 PA 将 有 其 关联 的 行为 。 
行为 是 各 PA 的 一 个 封装 器 (wrapper), ， 提 供与 PA 交互 所 需 的 接口 和 功能 。 每 个 
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被 引导 域 有 一 个 APS， 它 与 其 他 被 引导 域 的 APS 通信 达成 协议 ， 支 持 网 络 作为 一 
个 整体 的 操作 运行 。 使 用 各 APS 之 间 的 通信 ，PP 与 其 他 PP 的 联邦 是 可 能 的 。 在 
这 种 情形 中 ， 来 自 两 个 或 多 个 管理 域 的 APS 协商 它们 的 联邦 。 将 在 6.3.2 节 详 细 
讨论 联邦 、 协 商 和 监管 的 功能 特征 。 

一 个 基于 策略 的 管理 系统 从 一 个 系统 的 功能 抽象 它 的 行为 和 动态 决策 。 因 此 ， 
一 个 系统 的 功能 可 以 保持 相同 的 ， 但 其 行为 ， 特 别 就 变化 的 语 境 条 件 而 言 ， 是 可 能 
变化 的 。 在 PP 中 使 用 的 策略 将 其 行为 适 配 到 变化 的 语 境 条 件 ， 如 变化 的 商务 目 
标 、 网 络 资源 可 用 性 或 域 成 员 关 系 。 因 为 PP 涉及 分 布 式 管理 系统 的 引导 ， 其 测量 
直接 与 它们 的 需求 〈( Horizon 项 目 中 的 各 PA) 相关 联 。 本 质 上 来 说 ，PP 各 组 件 
( 即 PA) 的 行为 ， 受 到 各 分 布 式 PA 能 力 的 支配 。 例 如 ， 单 个 PA 可 使 用 一 个 APS 
进行 部 署 。 这 种 部 署 的 行为 可 能 需要 受到 PA“ 属 主 ”( 它 将 定义 应 该 部 署 哪些 PA 
的 策略 ) 和 各 APS 的 行为 (是 就 与 被 部 署 PA 的 任何 协作 而 言 的 ) 的 支配 。 各 APS 
应 该 实施 PA 为 协商 、 联 邦 或 分 发 而 委派 给 它 的 策略 。 例 如 ， 一 个 PA 可 能 将 如 下 
信息 通知 它 相 关联 的 各 APS， 即 与 其 资源 有 关 的 信息 不 应 该 输出 给 其 他 PA， 除 非 
满足 一 些 严 格 的 授权 要 求 。 各 APS 也 控制 多 个 PA，PA 直接 作用 于 每 个 VN 单元 。 
这 个 组 织 结构 的 一 个 例子 是 切换 (handover) 过 程 。 各 PA 可 控制 一 个 完整 的 决策 ， 
而 切换 决策 各 参数 ( 即 要 被 每 个 VN 接收 的 最 大 客户 端 数 和 采用 的 认证 过 程 ) 值 的 
定义 可 由 APS 支配 的 高 级 目标 所 确定 。 

图 6. 3 形象 地 给 出 了 刚 描述 过 的 组 织 结构 。 高 级 APS 控制 低级 PA， 并 为 那些 
组 件 设置 策略 和 SLA。 各 PA 使 用 接口 作用 于 虚拟 资源 ， 部 署 服务 并 执行 虚拟 资源 
和 节点 的 FCAPS 功能 。 最 后 ， 低 级 PA 控制 各 控制 协议 操作 运行 所 需 的 实时 决策 。 
如 前 所 定义 的 ，Horizon 架构 有 由 引导 策略 系统 持续 地 加 以 映射 的 几 个 层次 的 策略 。 
PP 使 用 引导 策略 ， 这 些 策略 是 控制 自治 控制 环 的 部 署 和 联邦 的 高 级 策略 。 在 一 定 
意义 上 而 言 ， 引 导 高 级 策略 是 依据 自治 管理 域 的 域 间 特 征 发 挥 作用 的 策略 ， 控 制 两 
个 APS 何 时 和 如 何 进行 联邦 。 它 们 也 支配 过 程 如 何 解决 冲突 将 由 各 APS 实施 ， 以 
及 各 PA 在 网 络 中 的 部 署 和 分 发 。 同 时 ，APS 高 级 策略 将 焦点 放 在 单个 域 的 管理 
上 。 各 APS 从 其 相应 的 管理 方 接收 引导 的 高 级 策略 和 APS 高 级 策略 。 之 后 处 理 那 
些 策略 ， 且 来 自 这 项 处 理 的 有 关 信 息 被 存储 在 系统 视图 中 ， 并 可 在 接 到 请 求 时 由 所 
需 组 件 进行 访问 。 例 如 ， 两 个 APS 的 联邦 所 要 求 的 策略 可 由 一 个 联邦 行为 加 以 请 
求 ， 而 与 安全 有 关 的 策略 可 由 自 安 全 APS 行为 加 以 请 求 。 在 图 6. 4 中 给 出 APS 设 
计 的 概略 图 。 它 支持 由 PP 管理 的 系统 中 所 有 组 件 具有 即 插 即 用 行为 。 各 APS 由 三 
种 类 型 的 功能 单元 组 成 : 

1) 动态 规划 器 : 作为 在 一 个 APS 中 行为 执行 的 一 个 工作 流 引擎 。 确 定 必 须 做 
到 哪些 行为 ， 是 必要 的 。 

2) 行为 : 实施 特定 的 /个 体 的 引导 动作 ， 这 是 一 个 APS 实施 所 要 求 的 。 它 们 
也 代表 网 络 中 的 特定 管理 任务 。 主 行为 是 分 发 、 联 邦和 协商 。 在 下 面 各 节 详 细 描 述 
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各 行为 。 各 行为 作为 PA 的 桩 。 它 们 也 使 用 各 APS 特定 的 内 部 功能 (核心 行为 )， 
如 各 行为 间 的 协商 。 

3) 共 置 视图 : 是 各 APS 到 KP 内 部 的 “局 部 窗口 ”。 视 图 由 系统 内 视图 和 系 
统 间 视图 组 成 。 系 统 内 视图 提供 单个 APS 内 各 组 件 看 到 的 系统 的 一 个 整体 视图 。 
系统 间 视 图 提供 各 APS 作为 一 个 整体 的 总 体 的 、 复 合 视图 ， 即 它 提 供 整 体 PP 的 一 
个 视图 。 在 本 章 中 将 进一步 比较 详细 地 概述 这 些 组 件 的 相应 角色 。 





图 6.3 1E Horizon 架构 中 各 APS 的 部 署 


分 布 式 编排 组 件 
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6.3.1 动态 规划 器 


DP 作为 各 行为 执行 的 一 个 工作 流 引 擎 。 这 样 的 控制 包括 如 下 任务 : 

1) 为 激活 一 个 PA， 必 须 启 动 的 各 行为 的 顺序 和 条 件 定义 (PA 组 件 的 部 署 ， 
定义 它们 对 其 他 行为 的 依赖 关系 ; 如 何 和 在 哪里 启动 它们 ) 。 它 作为 所 有 PA 的 一 
个 控制 工作 流 ， 确 保 各 PA 的 启动 、 初 始 化 、 语 境 化 和 关闭 。 为 实施 一 些 有 用 的 功 
能 ， 它 也 控制 一 个 PA 触发 其 他 PA 的 顺序 和 条 件 〈 即 一 个 引导 是 PA 之 间 交 互 的 
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模式 ) 。 

2) 监测 行为 ， 触 发 检查 一 个 个 体 行为 的 操作 没有 与 其 他 的 操作 冲突 。 

3) 为 每 个 被 引导 的 PA 和 核心 行为 ， 转 发 所 通告 的 高 级 策略 ， 是 由 网 络 的 运 
营 商 或 属 主 提供 的 。 

4) 在 行为 的 初始 化 和 重新 配置 中 冲突 的 识别 。 为 重新 配置 部 署 规划 ，DP 启 
动 协 商行 为 。 

5) 采用 一 种 即 插 即 用 (plug-and-play) 、 即 拔 即 用 ( unplug- and- play) 方法 ， 
触发 各 行为 的 初始 化 和 关闭 。 

6) 触发 各 行为 的 动态 重新 配置 。 

7) 方便 行为 之 间 的 交互 。 作 为 交互 的 一 个 例子 ， 为 解决 配置 冲突 ， 协 商行 为 
使 用 DP 与 其 他 行为 通信 。 那 么 ， 由 DP 触发 一 个 重新 配置 行为 。 

DP 将 由 策略 进行 配置 ， 这 帮助 DP 选择 必须 被 启动 的 行为 ( 且 由 此 涉及 的 服 
务 和 /或 PA)、 服 务 或 各 PA 参数 与 SLA。 

DP 的 自治 控制 环 〈 见 图 6.5) 是 通过 使 用 策略 实现 的 ， 基 于 必须 由 虚拟 资源 
满足 的 事件 和 条 件 ， 定 义 这 些 策 略 。 无 论 何 时 控制 
满足 这 些 条 件 ，DP 都 执行 策略 定义 的 动作 ， 策 
略 由 一 个 或 多 个 行为 的 启动 组 成 。 那 些 策略 可 
在 线 改变 ， 这 支持 DP 重新 配置 自己 和 适应 SLA yy -— 
中 的 变化 。 更 具体 地 说 ，DP 将 使 用 引导 策略 的 
分 发 策略 来 识别 在 哪里 实例 化 或 迁移 各 PA。 各 
策略 也 将 被 用 来 确定 应 该 和 何 时 启动 哪个 PA 或 测量 
核心 行为。 各 APS 也 将 使 用 策略 将 SLA 和 目标 ecl creatum 
MAIS PAs 自治 控制 环 

DP 也 作为 各 PA 联邦 的 一 个 中 介 。 无 论 何 
时 DP 在 各 PA 上 实施 一 个 新 的 配置 时 ， ETARE, 它们 会 拒绝 这 个 配置 。 在 这 
种 情况 中 ， 各 PA 将 使 用 合适 的 接口 通知 这 次 拒绝 ， 且 DP 将 启动 一 个 核心 行为 ， 
它 负责 冲突 解析 ， 这 将 提出 另 一 种 配置 。 


6.3.2 行为 


各 行为 是 APS 的 子 组 件 ， 它 们 实现 某 个 引导 任务 。 作 为 一 个 例子 ，APS 为 高 
级 策略 的 协商 、 任 务 的 分 发 、 服 务 和 虚拟 路 由 器 的 创建 与 销毁 等 实现 各 种 行为 。 当 
必要 时 ， 各 行为 相互 交互 ， 即 如 果 两 个 网 络 合并 时 ， 如 果 所 需 QoS 不 能 得 到 满足 ， 
则 联邦 行为 可 与 服务 质量 (QoS) 行为 交互 。 一 个 行为 的 生命 周期 受到 DP 的 控制 ， 
DP 识别 、 启 动 和 停止 完成 某 项 引导 任务 所 必要 的 行为 。 尝 试 性 地 区 分 两 种 类 型 的 
行为 功能 单元 (FE) : 核心 行为 FE (PP 的 正确 操作 所 需要 ) 和 PA 管理 行为 FE 
(与 数据 平面 的 控制 和 管理 有 关 ) 。 核 心 行为 支持 DP 的 操作 ， 实 现 各 PA 的 操作 和 
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核心 行为 所 必要 的 任务 。 核 心 行为 FE 的 一 些 例子 如 下 : 

1) 分 发 行为 : 将 所 需 数据 发 送 到 不 同 的 自 管理 引导 行为 FE， 并 从 之 接收 
数据 。 

2) 协商 行为 : 实现 在 一 个 APS 的 各 PA 之 间 中 介 的 算法 ， 从 而 使 各 PA 就 共 
同 目标 达成 一 致 。 在 协商 完成 之 后 ， 各 PA 在 其 相应 管理 域 下 应 该 采取 自治 和 局 部 
动作 ， 以 便 集 中 实现 这 些 协商 的 目标 。 也 可 在 不 同 PA 之 间 发 生 协 商 。 

3) 引导 知识 更 新 行为 : 管理 与 PP 有 关 知 识 的 传播 。 它 控制 与 PP 操作 所 需 核 
心 行为 有 关 的 信息 和 DP 所 需 信息 。 

4) 网 络 联邦 行为 : 控制 由 不 同 PA 控制 的 各 VN 的 合并 和 隔离 。 这 个 行为 识 
别 组 合 /分 解 不 同 被 联邦 域 的 必要 步骤 ， 向 DP 建议 (要 实施 ) 动作 。 

5) 知识 更 新 行为 : 管理 KP 的 操作 。 它 们 定义 “什么 、 何 时 和 哪里 ”。 要 收集 
什么 信息 ， 何 时 收集 和 从 谁 (哪里 ) 收集。 这 些 行为 是 特定 于 服务 的 ; 但 是 ， 整 
个 行为 集合 管理 KP 中 信息 的 存储 。 每 个 PA 要 求 预定 义 知识 和 运行 时 数据 。 映 射 
逻辑 支持 数据 (表示 为 一 个 标准 化 的 信息 模型 ) 被 转换 为 知识 ， 并 与 由 本 体 表示 
的 知识 组 合 在 一 起 。 

6) 启动 和 初始 化 行为 : 在 DP 的 管理 下 ， 启 动 和 初始 化 其 他 行为 。 

7) 重新 配置 行为 : 在 DP 的 管理 下 ,动态 地 重新 配置 和 适 配 其 他 行为 。 

8) 优化 器 行为 : 在 DP 的 管理 下 ,动态 地 优化 和 组 织 其 他 行为 。 

9) 关闭 行为 : 在 DP 的 管理 下 ,动态 地 关闭 其 他 行为 。 

与 提供 实时 响应 的 其 他 管理 功能 有 直接 互联 关系 的 行为 FE 例子 如 下 : 

1) 服务 生命 周期 管理 器 的 管理 ; 

2) APS 分 发 /联邦 /协商 的 管理 ; 

3) 各 APS 之 间 交 互 的 管理 ; 

4) 与 不 同 APS 的 高 级 目标 的 协商 /分 发 ; 

5) 各 APS 的 监测 ; 

6) 由 独立 APS 对 网 络 所 做 改变 顺序 的 网 络 一 致 性 /完整 性 检查 的 管理 ; 

在 下 面 各 节 ， 提 供 主 核心 管理 行为 的 详细 描述 ， 支 持 管理 任务 的 联邦 、 协 商 、 
监管 和 分 发 。 接 下 来 比较 详细 地 描述 PA 的 行为 。 

1. 联邦 核心 行为 

每 个 APS 负责 作为 一 个 域 进行 监管 的 其 虚拟 资源 和 服务 集合 。 联 邦 支持 一 个 
域 集合 被 组 合成 一 个 较 大 的 域 ， 并 将 一 个 域 分 解 为 较 小 的 域 。 当 在 服务 之 间 监 测 到 
冲突 且 不 能 达成 一 个 协议 以 及 服务 自己 不 能 找到 一 个 解析 时 ， 在 寻找 一 个 解决 方案 
方面 ， 联 邦 行为 是 重要 的 。 建 立 联邦 为 三 个 不 同属 性 。 第 一 种 情形 是 当 APS 可 联 
邦 网 络 时 ， 方 法 是 通过 合并 有 冲突 的 两 个 网 络 而 创建 一 个 域 。 得 到 的 域 继承 其 组 件 
的 特点 。 在 第 二 种 情形 中 ，APS 形成 联邦 的 方法 是 ， 创 建 一 个 域 ， 该 域 是 被 联邦 网 
络 的 交集 。 新 的 网 络 需 求 是 对 这 两 个 网 络 共同 的 那些 需求 。 在 第 三 种 情形 中 ,采用 
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这 两 个 准则 ， 各 APS 不 能 形成 联邦 。 它 们 构造 一 个 桥 ， 支 持 这 两 个 网 络 之 间 的 
连接 。 

在 Horizon 项 目 中 联邦 有 两 个 功能 特征 。 第 一 个 处 理 所 有 参与 联邦 间 的 协议 ， 
第 二 个 方便 联邦 间 服 务 的 提供 。 这 两 项 功能 特征 是 独立 地 处 理 的 ， 但 是 相互 依赖 
的 ， 原 因 是 在 协议 不 能 在 联邦 的 参与 成 员 之 间 达 成 的 情况 下 ， 服 务 提供 就 不 可 能 
达成 一 致 。 主 要 挑战 之 一 是 ， 在 互联 网 中 ， 当 商务 和 技术 考虑 需要 以 个 体 方式 处 
理 时 ， 独 立 的 管理 域 之 间 动 态 协议 适 配 是 困难 的 。 在 这 种 情形 中 ， 各 APS 应 该 
开始 一 个 特殊 的 协商 行为 ， 帮 助 新 协议 的 协商 ， 这 将 由 各 APS 的 决策 所 驱动 。 在 
Horizon 项 目 中 ， 依 据 商 务 或 技术 考虑 ， 由 各 APS 组 成 的 一 个 联邦 是 独立 的 。 在 下 
面 各 节 概 述 商 务 或 技术 考虑 。 

(1) 高 级 目标 的 联邦 

当 两 个 或 多 个 APS 需要 有 一 个 共同 目标 时 ， 在 Horizon 中 创建 一 个 联邦 。 典 型 
情况 下 ， 这 个 目标 是 在 各 APS 的 边界 间 提 供 保障 可 靠 性 的 一 个 共性 服务 集合 。 每 
个 APS 将 包含 由 策略 连续 体 定义 的 其 自己 的 商务 目标 。 各 APS 需要 确定 可 在 联邦 
间 维 护 的 一 个 共性 商务 目标 。 一 旦 建立 这 个 集合 ， 就 解决 了 联邦 的 商务 方面 。 此 
外 ， 任 何 成 员 可 提出 商务 目标 的 修改 。 任 何 成 员 可 选择 离开 联邦 ， 离 开 一 个 联邦 是 
各 PA 自 监管 功能 的 组 成 部 分 ， 如 果 它 破坏 了 联邦 的 条 款 ， 则 可 能 诱发 惩罚 。 各 
APS 可 确定 是 否 参 与 一 个 联邦 ， 由 此 简单 地 建立 有 关联 邦 成 员 应 该 相互 交互 的 某 种 
共性 理解 。 实 际 上 ， 在 一 个 联邦 中 提供 和 消费 服务 是 一 个 技术 问题 ， 并 必须 独立 地 
加 以 处 理 ， 以 便 使 新 服务 能 够 被 引入 到 一 个 联邦 中 。 

(2) 一 个 联邦 的 技术 考虑 

一 旦 一 个 APS 参与 到 一 个 联邦 ， 在 联邦 中 它 可 消费 并 提供 资源 与 服务 。Horizon 
项 目 中 的 各 APS 是 面向 如 下 目标 的 ， 即 这 些 服务 和 资源 使 用 的 实际 引导 ， 以 及 加 
人 和 离开 一 个 联邦 的 操作 。 各 APS 必须 确保 所 请 求 的 服务 以 这 样 一 种 方式 变 得 可 
用 ， 即 遵守 联邦 所 规定 的 各 SLA 和 策略 的 条 款 。 对 于 这 一 点 ， 各 APS 必须 能 够 评 
估 各 服务 的 配置 ， 是 否 足 以 确保 达成 一 致 的 联邦 条 款 是 否 成 立 。APS 也 必须 遵守 其 
自己 的 商务 目标 ， 并 且 如 果 这 些 目标 不 再 被 满足 时 ， 它 可 确定 离开 联邦 。 在 离开 一 
个 联邦 时 ， 关 联 的 APS 必须 将 这 个 意图 告知 联邦 成 员 。 

.服务 和 资源 的 不 同类 型 要 求 不 同类 型 的 解决 方案 ， 以 确保 它们 在 一 个 联邦 中 被 
有 效 地 使 用 。 服 务 创建 者 的 职责 是 确保 新 服务 要 在 一 个 联邦 内 使 用 ， 它 这 样 做 技术 
上 应 该 是 可 行 的 。 

2. 分 发 核心 行为 

各 APS 提供 通信 和 控制 服务 ， 支 持 各 任务 被 分 割 成 可 并 发 地 在 一 个 PP 内 的 多 
个 APS 上 运行 ， 甚 至 在 多 个 PP 间 运 行 的 部 分 。 

(1) 分 发 的 商务 考虑 

商务 考虑 与 每 个 APS 是 否 要 求 信息 、 任 务 和 代码 的 分 发 。 信 息 分 发 是 重要 的 ， 
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因为 一 些 APS 可 能 产生 对 它们 是 独特 的 信息 ， 并 将 需要 进行 显 性 控制 。 访 问 控制 
策略 可 有 助 于 做 到 这 一 点 。 任 务 分 发 可 被 看 作 工 作 的 分 发 ， 涉 及 在 许多 处 理 单元 间 
的 分 布 式 处 理 。 例 如 ， 一 个 特定 视频 的 有 效 带宽 的 计算 ， 可 被 分 布 在 许多 机 器 间 ， 
原因 是 这 可 能 是 一 项 耗 时 的 过 程 。 在 这 种 情形 中 ， 商 务 考虑 指 这 样 的 事实 ， 即 一 个 
特定 APS 可 请 求 其 关联 的 PA 分 发 一 项 处 理 任务 。 代 码 的 分 发 稍稍 不 同 于 信息 的 分 
发 ， 因 为 任务 典型 地 并 不 预期 从 分 发 PA 得 到 返回 〈 结 果 ) 。 代 码 的 分 发 可 以 是 一 
个 APS 升级 所 提供 的 一 项 特定 服务 的 使 能 器 ， 该 服务 提供 依赖 于 许多 PA 的 联邦 。 

(2) 分 发 的 技术 考虑 

可 使 用 KP 中 与 语 境 信 息 服务 有 关 的 概念 ， 实 施 信 息 的 分 发 。 但 是 ， 需 要 牵涉 
各 APS， 原 因 是 它们 可 实施 对 信息 分 发 的 严格 访问 控制 ， 从 而 遵守 APS 的 高 级 策 
略 。 高 级 策略 可 指明 信息 是 离开 还 是 进入 系统 。 从 技术 角度 而 言 ， 任 务 的 分 发 可 由 
正在 用 来 分 发 信息 的 平台 来 执行 。 但 是 ， 任 务 信息 可 以 是 一 种 特定 格式 的 ， 其 中 可 
能 需要 严格 的 指令 存在 ， 指 令 该 任务 需求 的 各 目标 PA (执行 任务 ) 。 确 定 是 接受 
还 是 拒绝 正 被 分 发 的 任务 ， 是 每 个 PA 的 事情 。PA 需要 将 这 个 意图 通知 各 APS。 
之 后 ，APS 实施 分 发 ， 并 通知 PA 这 些 意图 是 否 得 到 满足 。 

代码 的 分 发 也 可 由 用 来 分 发 信息 的 平台 加 以 实施 。 在 这 种 情形 中 ， 可 执行 代码 
是 可 被 分 发 的 一 种 特殊 形式 的 信息 。 代 码 可 被 用 来 升级 或 部 署 一 项 新 服务 到 其 他 
PA, Alt, PA 指令 各 APS， 代 码 需 要 分 发 ， 且 处 理 代码 的 分 发 是 各 APS 要 处 理 
的 事情 。 可 使 用 服务 使 能 器 平面 (SEP) 来 实施 分 发 。 

3. 协商 核心 行为 

在 针对 未 来 互联 网 的 一 些 方法 中 ， 必 需 的 是 ， 网 络 和 服务 提供 商 提供 和 发 布 他 
们 的 服务 ， 从 而 之 后 可 提供 更 复杂 的 服务 。 在 Horizon 项 目 中 使 这 项 需要 得 到 满足 
的 一 个 重要 组 件 ， 是 PP 的 协商 组 件 。 这 个 组 件 作为 不 同 PA 之 间 中 介 的 一 个 虚拟 
服务 代理 ， 处 理 服务 请 求 并 提供 支持 ， 从 而 底层 服务 提供 商 可 协商 职责 、 任 务 和 高 
级 目标 。 考 虑 到 底层 服务 提供 商 的 特性 、 他 们 提供 的 服务 、 他 们 的 关注 点 、 他 们 的 
服务 质量 以 及 其 他 关键 方面 ， 应 该 实施 这 项 支持 。 总 之 ， 应 该 提供 这 项 功能 ， 利 用 
来 自 复杂 的 决策 判定 过 程 的 服务 请 求 者 实体 。 

在 Horizon MAP, A APS 通告 它 提 供 在 PP 中 使 用 的 一 个 能 力 集 〈 即 服务 
和 /或 资源 ) 。 协 商 组 件 使 被 选中 能 力 的 一 个 特定 功能 在 各 APS 间 达 成 一 致 。 例 子 
包括 使 用 来 自 一 个 能 力 范围 的 一 项 特定 能 力 (如 当 提 供 多 项 功能 时 的 一 项 特定 加 
密 功能 ) ， 当 多 个 APS 正 竞争 那 项 服务 的 独 享 使 用 时 一 项 特定 服务 被 授权 专 有 使 
用 ， 以 及 达成 对 要 用 的 一 个 特定 协议 、 资 源 和 /或 服务 的 一 致意 见 。 在 APS 和 PA 
之 间 被 引导 的 协商 功能 具有 固有 的 商务 和 技术 考虑 。 下 面 详细 讨论 这 两 个 至 关 重 要 
的 方面 一 一 协商 的 商务 和 技术 考虑 。 

当 各 PA 在 一 个 APS 下 协商 高 级 目标 时 ， 或 当 不 同 PA 与 其 他 PA 协商 高 级 目 
标 时 ， 如 果 参 与 者 将 其 内 部 商务 目标 与 一 个 共性 目标 达成 一 致 ， 则 协商 完成 。 那 就 
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是 说 ， 当 各 参与 者 收敛 到 虚拟 和 物理 资源 的 一 个 经 协商 的 高 级 目标 时 ， 这 些 资源 必 
须 在 它们 相应 的 域 (PA 和 /或 APS) 中 被 自治 地 分 配 、 管 理 和 控制 。 在 商务 目标 
的 协商 中 ， 在 协商 过 程 中 也 要 考虑 职责 、 益 处 和 惩罚 。 

值得 指出 的 是 ， 一 个 APS 和 /或 一 个 PA 可 顺序 地 或 并 行 地 与 几 个 PA 和 APS 
协商 商务 目标 。 接 下 来 ， 商 务 目标 的 协商 受到 技术 考虑 的 影响 ， 是 指 各 APS 就 资 
源 方面 达成 妥协 ， 来 满足 协商 好 的 高 级 目标 。 一 个 APS 的 监管 能 力 (和 一 个 PA 的 
监管 能 力 ) 定义 协商 的 原因 和 何 时 进行 协商 。 协 商 能 力 确保 各 APS 和 PA 总 是 与 一 
个 联邦 中 的 其 他 实体 协商 。 

各 PA 和 APS 可 与 几 方 具 有 活跃 的 经 协商 的 协议 。 存 在 重新 协商 高 级 目标 的 一 
种 潜在 需要 ， 这 是 由 于 承诺 给 这 些 目 标的 各 资源 中 的 统计 变化 〈 当 目标 不 能 得 到 
满足 时 ) 或 由 于 导致 这 种 正确 动作 的 一 些 内 部 决策 。 

当 共 性 商务 目标 不 能 得 到 满足 时 ， 各 APS 也 可 触发 重新 协商 。 高 级 目标 的 重 
新 协商 是 应 该 得 到 PP 支持 的 一 项 功能 。 它 是 每 个 PA 和 /或 各 APS 的 监管 能 力 的 一 
部 分 ， 其 中 确定 要 重新 协商 其 经 协商 的 商务 目标 的 哪个 目标 。 重 新 协商 可 受到 效用 
函数 、 成 本 /收益 优化 等 的 驱动 。 同 样 ， 在 高 级 目标 的 重新 协商 过 程 中 ， 也 要 考虑 
职责 、 益 处 和 惩罚 。 

PP 为 各 PA 和 APS 之 间 提 供 中 介 方 式 ， 从 而 使 作为 一 个 复杂 服务 请 求 的 结果 ， 
它们 可 协商 高 级 目标 。 因 为 各 PA 和 APS 可 能 属于 不 同 管理 域 ， 所 以 它们 可 能 讲 不 
同 语言 ， 并 可 能 以 不 同 术 语 表 示 它 们 的 高 级 目标 。 本 体 转 换 和 映射 技术 可 在 参与 实 
体 上 被 用 来 创建 通用 语言 。PP 必须 提供 要 发 生 协商 的 机 制 ， 而 不 管 这 些 技术 特点 
中 的 任何 一 个 是 什么 。 

4. 引导 核心 行为 

一 个 APS 的 监管 功能 处 理 自己 关注 的 动作 ， 它 用 之 与 其 他 各 方 (重新 ) 协商 
高 级 目标 ， 并 采取 可 能 涉及 虚拟 资源 和 物理 资源 承诺 的 动作 ， 这 可 有 助 于 在 联邦 间 
提供 服务 ; 每 个 PA 可 操作 运行 在 一 个 个 体 的 、 分 布 式 的 或 协作 的 模式 。 在 每 种 情 
形 中 ， 为 了 确定 它 所 监管 的 虚拟 和 非 虚拟 资源 以 及 服务 是 否 需要 (重新 ) 配置 ， 
PA 收集 合适 的 监测 数据 。 商 务 目标 、 服 务 需求 、 语 境 、 能 力 和 约束 都 被 看 作 自己 
关注 的 决策 判定 过 程 的 组 成 部 分 。APS 也 可 与 其 他 APS (系统 间 共 置 视 图 ) KE, 
因为 它们 是 以 自己 关注 的 方式 实施 动作 的 ， 即 它们 可 具有 自我 监管 的 性 质 。 

下 面 介绍 监管 的 商务 和 技术 考虑 。 

在 一 个 联邦 环境 中 ， 各 APS 以 如 下 一 种 方式 提供 支持 ， 即 它们 的 底层 PA 知道 
一 个 联邦 内 其 他 PA 的 需要 。APS 可 确定 它 将 与 哪些 PA 协作 。 如 前 面 介绍 的 ， 每 
A~ APS 可 以 一 种 个 体 的 、 分 布 式 的 或 协作 的 模式 操作 : 

1) 各 APS 作为 个 体 实体 ， 当 它们 不 是 任何 联邦 的 组 成 部 分 时 ， 独 立地 和 自治 
地 工作 ， 并 监管 其 自己 的 虚拟 资源 和 物理 资源 以 及 服务 ， 这 些 是 由 其 自己 的 商务 目 
标 驱 动 的 。 它 既 不 与 其 他 APS 共享 共同 目标 也 不 共享 共同 职责 。 各 APS 应 该 处 理 
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和 传输 由 相应 PA 发 送 到 它们 所 处 联邦 中 其 他 PA 和 /或 APS 的 消息 。 

2) 作为 PP 分 发 功能 的 一 个 结果 ， 各 APS 可 与 一 个 联邦 中 的 其 他 APS 一 起 工 
作 ， 其 中 复杂 服务 是 在 一 个 协商 阶段 之 后 ， 协 作 每 个 分 布 式 APS 的 活动 、 资 源 和 
服务 进行 提供 的 。 每 个 APS 应 该 向 各 PA 提供 许多 契约 接口 (contract interface) , 
PA 使 用 它们 促进 和 中 介 一 项 复杂 服务 的 协商 、 它 的 激活 和 维护 。 这 些 接口 可 被 解 
释 为 契约 接口 ， 接 口 隔 离 各 PA 的 内 部 结构 和 能 力 。 

3) 当 一 个 APS 作为 一 个 局 部 或 一 个 全 局 协调 器 时 ， 它 以 一 种 协作 模式 工作 。 
当 各 APS 将 其 控制 的 一 部 分 委派 给 一 个 APS 时 ， 一 个 协调 器 负责 在 一 个 给 定 PP 中 
协调 其 他 APS 的 功能 。 当 一 个 APS 在 不 同 PP 间 协 调 APS ( 即 APS 间 ) 的 功能 时 ， 
它 作 为 一 个 全 局 协调 器 。 这 就 使 模拟 客户 端 一 服务 器 、n 层 、 集 群 和 对 等 架构 成 为 
可 能 。 

不 管 操作 模式 为 何 ，PP 都 应 该 为 一 个 APS 通过 一 个 良好 定义 的 接口 集合 ， 
供 监管 其 虚拟 资源 和 非 虚拟 资源 的 方式 。 各 APS 的 目标 是 使 各 PA 总 是 能 够 依据 自 
己 关 注 的 策略 ， 决 定 要 采取 的 动作 ， 策 略 受 到 商务 目标 和 能 力 的 驱动 。 其 决策 也 应 
该 考虑 参与 到 联邦 中 其 他 APS 的 策略 。 但 是 ，APS 可 拒绝 遵守 联邦 的 某 些 策略 ， 
此 时 那些 策略 与 其 自己 的 商务 目标 是 不 一 致 的 。 在 这 种 情形 中 ， 重 新 协商 或 改变 联 
邦 的 策略 是 APS 的 职责 。 

5. APS 行为 

各 APS 使 用 APS 行为 作为 与 各 PA 通信 的 一 个 接口 。 这 样 的 封装 使 各 APS 能 
够 以 一 种 统一 的 方式 看 到 各 PA， 具 有 与 核心 行为 相同 的 接口 。 各 PA 和 APS 之 间 
的 通信 遵循 一 个 确定 的 信息 模型 。 进 而 ， 一 旦 APS 行为 提供 从 一 个 APS 的 特定 设 
计 问 题 到 各 APS 的 操作 运行 哲学 ， 则 它们 是 CPA 的 包装 器 ， 这 类 似 于 远程 过 程 调 
用 (RPC) =% CORBA 中 的 桩 和 骨架 。 这 样 一 个 包装 器 的 用 途 之 一 ， 是 将 APS 的 不 
同 实现 对 各 APS 是 隐藏 的 ， 如 确保 单个 通信 点 ， 即 使 APS 可 能 是 分 散 于 几 个 虚拟 
节点 的 一 个 分 布 式 组 件 时 也 是 如 此 。 

包装 天 也 定义 各 APS 必须 支持 的 一 个 命令 集 ， 这 使 各 APS 能 够 编排 它们 的 联 
邦和 分 发 〈distribution ) 。 接 口 为 各 PA 传播 和 重新 协商 与 各 APS 的 策略 提供 机 制 ， 
这 使 PA 为 自我 监管 的 。 各 PA 也 支持 虚拟 资源 和 协议 的 准 实时 控制 。 高 级 自我 
FCAPS APS 主要 关注 于 资源 的 长 期 管理 ， 而 部 署 各 低级 PA 是 为 了 尽 可 能 快 地 对 
PA 感知 语 境 中 的 变化 做 出 反应 。 由 此 ， 各 低级 PA 使 用 简单 算法 ， 依 据 一 个 预 确 
定 的 总 体 目 标 执行 动作 。 那 些 目 标 受 到 APS 所 定义 各 策略 的 控制 支配 。 由 于 对 其 
反应 的 时 间 约 束 ， 那 些 PA 将 在 单个 虚拟 资源 或 一 个 小 型 虚拟 资源 集合 上 执行 动 
作 。 在 某 个 意义 上 ， 各 低级 PA 可 被 看 作 一 个 自治 系统 的 第 一 个 控制 环 ， 依 据 预 确 
定 的 目标 和 没有 任何 内 概 学 习 能 力 的 基础 上 执行 动作 。 可 使 用 的 可 能 技术 例子 有 状 
态 机 、 比 例 一 积分 一 微分 (PID) 控制 器 、 模 糊 决策 等 。 各 低级 PA 与 网 络 SLA 定义 
的 一 个 QoS 的 维护 关联 ， 控 制 虚拟 节点 的 参数 及 其 运行 算法 ， 如 移动 性 管理 算法 。 
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6.3.3 系统 内 和 系统 间 视 图 


各 APS 使 用 KP 存储 和 分 发 其 操作 运行 所 需 的 信息 。 依 据 信息 与 一 个 给 定 APS 
的 相关 性 ， 信 息 可 被 分 成 两 部 分 或 视图 。 

系统 内 视图 与 编排 引导 域内 各 服务 所 需 信 息 有 关 ， 而 系统 间 视 图 处 理 几 个 引导 
域 的 引导 。 系 统 内 视图 包含 使 各 APS 能 够 了 解 特定 位 置 的 信息 。 系 统 间 视图 为 协 
作 各 APS 提供 类 似 信息 。 

由 此 ， 系 统 内 视图 处 理 运行 在 一 个 APS 边界 内 的 各 项 服务 ， 拥 有 与 APS 操作 
运行 相关 的 信息 。 这 个 视图 也 被 称 作 一 个 共 置 视图 。 实 际 上 ， 取 决 于 馈 人 的 算法 ， 
共 置 视图 一 定 是 不 同 的 。 例 如 ， 不 仅 可 定义 一 跳 或 两 跳 或 一 个 完全 的 共 置 视图 ， 而 
且 可 定义 更 复杂 的 共 置 视图 ， 如 图 6.6 所 示 。 





图 6.6 共 置 视图 的 不 同 解决 方案 (整体 的 、 中 间 的 和 一 跳 的 ) 


在 共 置 视图 的 定义 上 存在 一 个 重要 的 折 中 : 大 型 共 置 视图 可 使 用 系统 的 整体 状 
态 的 描述 进行 决策 。 但 是 ， 传 播 和 处 理 成 本 ， 如 所 有 相关 节点 的 知识 ， 是 较 高 的 。 
由 此 ， 一 个 最 优 的 共 置 视图 应 该 基于 要 求解 的 问题 和 清晰 的 性 能 度量 元 上 进行 
定义 。 

各 APS 维护 共 置 视图 ， 定 义 哪些 信息 必须 被 存储 在 这 些 视 图 中 ， 针 对 哪些 虚 
拟 节 点 或 资源 ， 以 及 必须 以 多 大 频率 进行 更 新 。 在 下 一 节 描 述 PP 5j KP 的 接口 。 


6.3.4 APS 的 接口 


本 节 描 述 各 APS 与 Horizon 架构 其 他 单元 的 交互 ， 如 图 6.7 所 示 。 首 先 描述 各 
APS 与 KP 的 接口 。 下 面 介绍 与 虚拟 资源 、 各 APS 
和 服务 使 能 器 平面 的 接口 。 

KB 是 一 个 存储 库 ， 其 中 管理 和 控制 任务 所 需 
的 所 有 信息 和 知识 都 保存 在 其 中 。 因 为 每 个 单元 应 
该 能 够 自治 地 工作 ， 所 以 PP 应 该 能 够 自治 地 提供 
所 需 的 信息 。PP 向 各 APS 提供 用 于 监测 的 所 需 参 





数值 ， 以 及 应 该 从 网 络 中 的 哪里 采集 信息 。 这 些 参 | age | 
数值 可 由 动态 规划 器 确定 ， 依 据 PP 的 功能 和 网 络 
的 状态 ， 且 这 些 值 提出 专用 于 这 项 任务 的 一 项 特定 。 5 图 6.7 APS 的 接口 
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行为 。 应 该 考虑 KB 中 的 两 种 类 型 知识 : 与 管理 任务 有 关 的 那些 知识 和 与 引导 任务 
有 关 的 那些 知识 。 

PP 的 目标 之 一 是 识别 自治 决策 所 需 的 信息 ， 接 下 来 是 激活 所 需 的 KP 功能 ， 
这 将 确保 这 个 信息 的 及 时 收集 和 交付 到 各 APS 或 一 个 特定 的 行为 。KP 和 OP 之 间 
的 交互 要 求 如 下 功能 : 

1) Lookup (Info): 从 KP 请 求 某 片 信息 (或 知识 ) 的 查找 。 这 用 于 获取 被 引 
导 APS 的 策略 、SLA 以 及 有 关 的 配置 参数 。 

2) Store (Info): TE KP 上 存储 信息 。 这 个 功能 用 于 OP 中 产生 的 知识 ， 之 后 
存储 在 KP 上 。 

3) Subscribe (Event, Component): 由 KP 的 被 存储 信息 上 的 一 个 条 件 定 义 ， 
这 个 函数 支持 将 网 络 中 发 生 的 有 关 事件 通知 给 各 APS。 事 件 可 定义 条 件 和 可 在 其 上 
发 生 这 些 事 件 的 节点 或 APS 集合 。 例 如 ， 各 APS 可 关注 于 监视 某 些 故障 的 发 生 ， 
触发 负责 故障 处 理 的 一 个 APS 的 重新 配置 。 该 订阅 也 识别 哪个 APS 和 它 的 哪个 组 
件 将 处 理 该 信息 。 

4) Watch (Info) 和 unWatch (Info): 由 各 APS 使 用 ， 用 来 定义 哪些 信息 必 
须 或 不 必 周 期 性 地 由 KP 分 别 进行 收集 和 传播 。 例 如 ， 可 监测 与 某 个 PA 相关 联 
的 一 个 网 络 接口 的 平均 带宽 利用 率 ， 以 便 验 证 这 个 组 件 是 否 应 该 被 迁移 到 网 络 中 
的 男 一 个 节点 。 获 取 的 信息 由 信息 类 型 、 其 共 置 视图 (必须 从 哪些 虚拟 节点 收 
集 ) 、 这 种 更 新 的 周期 性 以 及 要 求 这 个 信息 的 组 件 等 定义 。 一 旦 备 APS 发 出 一 条 
Watch 请 求 ，KP 就 负责 该 信息 的 维护 ， 将 之 直接 交付 到 涉及 的 组 件 。Watch 使 用 
的 一 个 例子 是 当 一 个 APS 定义 活跃 流 的 数量 时 的 情况 ， 它 应 该 与 自治 性 能 优化 
PA 通信 (传递 给 PA) 。 当 不 再 需要 这 个 信息 时 ， 各 APS 使 用 unWatch 功能 释放 
KP 资源 。 

5) Push (Information, PAs): 用 于 在 各 PA 间 的 同步 消息 传递 。PA 使 用 各 
APS 的 Subscribe, Watch 和 Push 接口 ， 创 建 它们 的 系统 间 视 图 ， 用 来 馈 人 动态 规 
划 器 和 核心 行为 ， 其 中 带 有 其 正确 的 参数 值 。 那 些 功能 也 被 用 来 进行 APS 间 通 信 ， 
因为 一 个 APS 可 使 用 相同 的 功能 监视 其 他 APS 的 状态 。 访 问 来 自 其 他 APS 的 信息 
应 该 受到 访问 策略 的 控制 ， 因 为 各 APS 可 能 受到 不 同 组 织 机 构 的 控制 ， 由 此 各 
APS 也 许 硕 望 隐藏 其 网 络 管理 的 一 些 方面 。 

6) 接口 SEP/APS 、 虚 拟 资源 /APS 和 PA/APS: 如 前 所 述 ，PP 的 最 终 任务 是 
使 用 网 络 上 的 各 PA。 各 PA 的 部 署 应 该 在 考虑 服务 的 管理 需求 下 完成 。PP 使 用 
SEP 实施 各 PA 的 部 署 。 但 是 ，PP 使 用 SEP 来 使 用 各 PA， 它 不 处 理 服务 的 部 署 。 
PP 需要 与 虚拟 资源 交互 ， 为 各 PA 行为 的 部 署 ， 将 有 关 网 络 状态 的 物理 管理 和 控 
制 信息 提供 给 PP。 各 APS 使 用 的 最 后 一 个 接口 是 各 APS 与 各 PA 的 接口 。 这 个 接 
口 实际 上 是 由 PA 包装 器 行为 实现 的 。 
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6.4 引导 代理 


本 节 描 述 分 布 式 引导 代理 平面 。 这 个 平面 由 分 布 式 智能 代理 组 成 ， 每 个 代理 与 
一 个 NE 或 一 个 NE 集合 相关 联 ， 如 图 6. 8 所 示 。 





图 6.8 形成 引导 平面 的 智能 代理 


通过 将 代理 分 布 在 网 络 间 ，PP 使 用 户 能 够 局 部 地 处 理 问 题 。 实 际 上 ， 相 比 那 
些 由 远程 争议 导致 的 问题 ， 局 部 问题 处 理 起 来 经 常 是 比较 简单 的 和 容易 的 。 此 外 ， 
在 早期 一 个 局 部 问题 可 采用 局 部 方式 解决 ， 而 不 是 以 一 种 中 心 式 方法 解决 。 例 如 ， 
一 个 代理 可 立刻 改变 其 NE 的 配置 ， 以 对 一 个 局 部 负载 问题 做 出 响应 。 除 了 纯 局 部 
问题 外 ， 各 代理 可 协作 处 理 这 个 邻居 关系 范围 中 的 问题 ， 例 如 一 个 连通 性 问题 可 能 
被 几 个 代理 检测 到 。 之 后 各 代理 可 协作 更 准确 地 刻画 问题 ， 并 最 终 向 较 高 层 提供 一 
个 解决 方案 或 报告 。 为 实施 任务 ， 各 代理 可 使 用 功能 强大 的 分 布 式 AI 技术 。 作 为 
PP 组 成 部 分 的 KP， 由 各 代理 的 共 置 视图 组 件 组 成 。 类 似 地 ，OP 由 一 个 动态 规划 
器 和 不 同行 为 组 成 。 引 导 系 统 的 架构 如 图 6. 9 所 示 。 





与 其 他 代理 通信 (—) 





图 6.9 代理 架构 概 图 
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PP 的 第 一 部 分 由 一 个 KP 组 成 ， 它 是 内 藤 于 各 代理 的 一 个 分 布 式 信息 库 。 它 
包含 各 代理 的 局 部 信息 和 网 络 的 全 局 信息 。 在 直接 从 其 各 NE 的 局 部 观察 和 间接 地 
从 网 络 其 他 部 分 (通过 与 其 邻居 交换 信息 ) 得 到 的 信息 基础 上 ， 每 个 代理 维护 其 
自己 的 网 络 视 图 。 网 络 的 这 个 以 代理 为 中 心 的 视图 ， 焦 点 是 附近 的 (close) 网 络 
环境 ， 称 作 共 置 视图 ， 如 图 6. 10 所 示 。 


节点 A 上 的 
Ginkgo 代 理 





图 6. 10 每 个 代理 有 其 自己 的 网 络 共 置 视图 


共 置 视图 的 理论 依据 是 ， 发 生 在 一 个 代理 邻居 范围 中 的 事件 ， 一 般 来 说 ， 要 比 
发 生 在 网 络 的 一 个 远 端 部 分 的 事件 ， 对 代理 有 较 大 的 重要 性 。 较 早 地 知道 局 部 事件 和 
更 准确 地 记录 在 共 置 视图 中 的 事实 ， 使 代理 快速 地 和 合适 地 做 出 响应 是 比较 容易 的 。 
各 代理 定期 地 检查 出 现在 其 共 置 视图 和 网 络 环境 中 的 重要 变化 。 它 可 确定 自动 地 调整 
其 被 管 NE 的 某 些 参数 或 请 邻接 的 代理 调整 它们 相应 的 NE 参数 。 共 置 视图 的 使 用 驱 
动 代理 之 间 的 隐 性 协作 ， 通 过 它们 共享 的 知识 而 相互 “影响 ”。 隐 性 协作 是 PP 中 各 
代理 间 协 作 的 主要 模式 。 这 种 模式 的 协作 是 简单 的 ， 特 别 是 鲁 棒 的 和 良好 地 适合 于 动 
态 改变 的 环境 ， 原 因 是 它 不 要 求 建议 代理 之 间 的 一 个 显 式 对 话 和 严格 同步 。 

一 个 自治 系统 由 不 同 自治 单元 组 成 ， 它 们 协作 取得 自治 系统 的 整体 目标 。 因 
此 ， 当 到 达 一 个 阐 值 以 实时 地 确定 要 做 什么 ， 要求 一 个 OP。 作 为 变化 语 境 的 响应 ， 
并 符合 适用 的 目标 和 策略 [TSE 09], OP 负责 系统 行为 的 监管 和 集成 过 程 。 通 过 
行为 和 动态 规划 器 ， 自 治 架 构 实施 这 个 过 程 。 一 个 代理 能 够 做 的 事情 被 定义 为 一 个 
行为 集合 (图 6.11 中 的 “B”)。 这 些 行为 中 的 每 个 行为 可 被 看 作 具 有 一 些 专 家 能 
力 的 一 个 专用 功能 ， 人 处理 要 由 该 代理 实施 工作 的 特定 方面 。 

下 面 列 出 典型 的 行为 种 类 : 

1) 与 其 他 代理 协作 ， 更 新 共 置 视图 。 

2) 个 体 地 或 集体 地 推理 ， 评 估 状 况 ， 以 确定 应 用 合适 的 动作 。 例 如 ， 一 个 行 
为 可 简单 地 负责 一 个 NE 上 的 计算 带宽 可 用 性 ， 它 也 可 定期 地 实施 一 个 复杂 的 诊断 
场景 ， 或 它 可 专用 于 特定 网 络 条 件 的 自动 识别 。 

3) 作用 于 NE 参数 。 例 如 ， 一 个 行为 可 调整 一 个 DiffServ 语 境 中 的 QoS 参数 。 
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知识 平面 











编排 平面 











x 网 元 


图 6.11 引导 系统 的 概 图 


各 行为 可 访问 在 每 个 代理 内 操作 的 共 置 视图 ， 作 为 代理 的 行为 间 共享 的 一 个 白 
板 。 在 一 个 代理 内 行为 的 激活 、 动 态 参数 化 和 调度 ， 由 动态 规划 器 实施 。 动 态 规划 
器 确定 哪些 行为 必须 是 活跃 的 、 何 时 它们 必须 是 活跃 的 以 及 采用 哪些 参数 值 。 动 态 
规划 器 检测 共 置 视图 中 的 变化 和 外 部 /内 部 事件 的 发 生 。 从 那里 ， 它 编排 各 代理 对 
网 络 环境 中 变化 的 响应 。 





6.5 测试 床 


重要 的 是 在 一 个 真实 的 网 络 中 部 署 系统 之 前 ， 评 估 所 提出 的 APS。 图 6. 12 形 
象 地 给 出 采用 这 个 目标 构建 的 一 个 测试 床 [SEN 11]. 

测试 床 包 含 两 个 VN: VN A (虚拟 的 A) 和 VN B. (虚拟 的 B)。 这 两 个 VN 每 
个 都 包含 两 个 虚拟 路 由 器 。 虚 拟 路 由 器 位 于 真实 的 主机 zeus 和 dionisio 处 。 对 于 要 
被 实例 化 的 VN A， 需 要 在 真实 主机 zeus 上 实例 化 虚拟 路 由 器 horizonzeusA 和 在 真 
KEHL dinisio 上 实例 化 虚拟 路 由 器 horizondionisioA。 对 VN B 需要 类 似 的 实例 化 。 

创建 VN A， 通 过 一 条 两 跳 虚 所 路径， 互联 主机 artemis 和 apolo。 类 似 地 ， 创 
Æ VN B， 互 联 主机 nix 和 cronos。 虚 拟 路 由 器 之 间 的 虚拟 链 路 可 被 映射 到 物理 路 由 
器 zeus 和 dionisio 之 间 的 一 条 100Mbit/s 链 路 或 一 条 1Gbit/s 链 路 。 最 初 ， 这 两 条 虚 
拟 路 径 共 享 100Mbit/s 链 路 。 

实施 了 初步 的 试验 ， 确 认 在 两 个 VN 的 操作 运行 期 间 改变 虚拟 路 径 映 射 的 可 能 
性 。 思 路 是 过 载 100Mbit/s 链 路 ， 之 后 ， 仅 将 一 条 虚拟 路 径 迁 移 到 1Gbit/s 链 路 。 
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10.20.92 
(eth) 
图 6.12 测试 床 


这 个 试验 仿真 这 样 一 个 场景 ， 其 中 位 于 路 由 器 处 的 各 PA 检测 一 条 链 路 的 高 利用 
率 ， 并 做 出 迁移 虚拟 链 路 之 一 的 决策 。 

下 面 各 节 给 出 有 关 测 试 床 的 更 多 细节 。6. 5. 1 节 概 要 描述 用 来 构建 测试 床 的 一 
些 工具 ， 而 6. 5.2 节 给 出 初步 试验 的 结果 。 重 要 的 是 指出 ， 这 些 试验 是 手工 实现 
的 ， 没 有 来 自 所 提供 APS 的 各 PA 的 中 介 在 内 。 在 6.6 节 评 述 多 代理 APS 的 实现 ， 
在 6.7 节 给 出 采用 各 PA 得 到 的 结果 。 


6.5.1 IR 


本 节 描 述 用 来 构建 测试 床 的 主要 工具 ， 在 试验 中 要 使 用 这 些 工 具 。 使 用 这 些 工 
具 进 行 各 VN 的 部 署 和 操作 ， 且 Ginkgo 平台 被 用 于 多 代理 APS 的 开发 。 

1. qemu 

qemu [BEL 05] 是 一 个 处 理 器 模拟 器 ， 也 可 用 来 创建 虚拟 机 (VM). ABLE 
其 他 虚拟 化 平台 ，qemu 具有 容易 安装 的 优势 ， 因 为 对 于 主机 操作 系统 而 言 ， 它 是 
像 任何 其 他 应 用 一 样 的 一 项 应 用 。 劣 势 是 qemu 容易 受到 主机 操作 系统 相同 进程 调 
度 和 内 存 管 理 算法 的 影响 。 

qenu 是 通用 公开 许可 证 (GPL) 下 免费 软件 的 一 部 分 且 是 开源 的 。 存 在 一 些 
额外 的 组 件 ， 可 与 qemu 一 起 使 用 ， 来 改进 寄居 操作 系统 的 性 能 ， 如 果真 实处 理 器 
包含 被 模拟 处 理 器 的 相同 指令 。 思 路 是 允许 寄居 操作 系统 直接 访问 真实 处 理 器 。 

2. KVM 

基于 内 核 的 虚拟 机 (KVM) [KIV 07] 是 基于 机 器 模拟 器 qemu 的 一 个 全 虚拟 
化 hypervisor。 它 运行 在 x86 HJE, RH Intel VT 和 AMD- V 等 新 的 虚拟 化 技 
Ro KVM 由 Linux 的 一 个 内 核 模块 组 成 ， 当 载 和 人 时， 在 /dev/kvm 处 提供 到 寄居 VM 
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的 初始 化 和 控制 的 一 个 接口 。 

KVM 是 GPL 下 的 一 个 免费 软件 且 是 开源 的 ， 这 使 得 能 够 使 用 外 部 工具 (ff 
Libvirt) 来 控制 它 。 

对 Horizon 项 目 有 益 的 一 些 KVM 功能 特征 包括 : 

1) 全 虚拟 化 中 的 良好 性 能 。 

2) 各 VM 的 实况 迁移 。 

3) 支持 SMP 主机 和 寄居 机 。 

4) 内 存 气球 法 。 

5) 采用 桥接 、 路 由 或 专用 网 络 的 VM 联网 。 

在 性 能 方面 ，KVM 超越 了 qemu， 因 为 qemu 的 主要 目标 是 一 个 处 理 器 模拟 器 ， 
而 不 是 一 个 虚拟 化 平台 。 但 是 ，qemu 具有 运行 在 任意 架构 上 的 优势 ， 且 容易 安装 ， 
因为 不 需要 采用 特定 内 核 或 模块 来 修改 主机 操作 系统 . 

在 本 节 给 出 的 多 代理 APS 的 初步 试验 ， 是 在 使 用 qemu VM 增强 的 一 个 测试 床 
中 实现 的 。 在 6.7 节 中 给 出 的 多 代理 APS 的 最 终 试验 ， 是 在 采用 KVM VM 的 一 个 
当前 测试 床上 实施 的 。 

3. Libvirt 

Libvirt [COU 10] 是 访问 Linux 虚拟 化 能 力 的 一 个 API， 支 持 各 种 hypervisor, 
包括 qemu, KVM 和 Xen 以 及 来 自 其 他 操作 系统 的 一 些 虚 拟 化 产品 。 它 支持 各 VM 
的 局 部 和 远程 管理 。 采 用 Libvirt， 则 独立 于 虚拟 化 平台 ， 一 个 PA 使 用 相同 代码 监 
测 和 控制 虚拟 资源 是 可 能 的 。 

Libvirt 是 以 C (支持 C++) 实现 的 ， 并 包括 对 Python 的 直接 支持 。 它 也 支持 
许多 语言 绑 定 ， 这 些 是 针对 Ruby, Java, Perl 和 OCaml 实现 的 。 在 试验 中 ,使 用 了 
API 的 C 版 本 和 Java 绑 定 。 

Libvirt 对 这 项 工作 的 重要 性 是 使 虚拟 化 技术 是 独立 的 ， 这 有 利于 未 来 的 设计 改 
变 。 采 用 Libvirt， 则 在 不 修改 各 PA 的 条 件 下 ， 将 虚拟 化 平台 从 qemu KEH KVM, 
将 是 可 能 的 。 

4. Ginkgo 分 布 式 网 络 引导 系统 

Ginkgo 分 布 式 网 络 引导 系统 [CIN 08]. 是 基于 自治 网 络 的 一 个 代理 平台 。 它 
有 针对 计算 机 网 络 的 一 个 引导 系统 的 开发 所 用 的 构造 块 。 该 框架 支持 创建 轻 量 的 和 
可 移植 的 代理 ， 这 在 异 构 环 境 中 有 利于 它 的 实现 : 路 由 器 、 交 换 机 、 主 机 、 有 线 网 
络 和 无 线 网 络 。 各 代理 扮演 自治 计算 的 自治 管理 器 的 角色 。 在 分 布 式 管理 器 靠近 其 
被 管 单元 的 情况 下 ， 可 以 局 部 方式 进行 监测 。 

该 平台 支持 代理 集群 的 创建 。 邻 接 代理 交换 信息 并 得 到 网 络 的 一 个 共 置 视图 。 
这 个 信息 被 存储 在 KB 中 ,该 KB 使 用 一 个 信息 模型 ， 这 方便 代理 之 间 的 通信 。 策 
略 文件 是 另 一 个 库 ， 包 含 应 用 的 规则 。 在 拥有 环境 和 应 用 的 知识 情况 下 ， 多 代理 系 
统 可 向 网 络 提供 一 个 自 知识 (self-knowledge) 性 质 。 
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各 行为 实施 代理 的 感知 、 认 知 和 动作 。 它 们 向 KB 提供 输入 ， 感知 和 预测 有 威 
胁 的 事件 ， 并 在 被 管 单元 上 实施 改变 。 各 代理 也 有 一 个 动态 规划 器 ， 它 可 改变 行为 
的 参数 并 控制 代理 的 生命 周期 ,依据 的 是 KB 中 的 信息 和 策略 文件 中 的 规则 。 这 使 
自 配置 、 自 愈 、 自 优化 和 自 保护 功能 的 开发 成 为 可 能 ， 提 升 了 自我 管理 能 力 。 

Ginkgo 平台 提供 了 实现 各 PA 所 必要 的 关键 功能 ， 这 在 6.4 节 中 已 给 出 。 


6. 5.2 测试 床 中 的 试验 


实施 了 初步 试验 ， 评 估 在 各 VN 操作 运行 过 程 中 改变 虚拟 链 路 映射 的 可 能 性 。 
本 节 描 述 在 这 些 试验 中 得 到 的 结果 。 

虚拟 路 由 器 是 基于 qemu 版 本 0. 12. 5 的 VM。 为 创建 和 操作 虚拟 路 由 器 ， 使 用 
了 Libvirt 版 本 0. 8.3。 物 理 机 器 和 VM 都 使 用 操作 系统 Debian GNU/Linux， 内 核 版 
本 为 2. 6.32。 使 用 以 太 网 协议 (802.3) 通过 虚拟 接口 和 网 桥 ， 在 数据 链 路 层 上 创 
建 虚拟 链 路 。 各 网 桥 受到 Bridge- util 软件 包 的 brel 工具 (版 本 1.4-5) 的 控制 。 

初始 情况 下 ,各 VN 的 虚拟 链 路 共享 基层 网 络 的 LOOMbit/s 链 路 。 在 两 台 VN 
中 使 用 iperf 产生 用 户 数据 报 协 议 (UDP) 流量 ， 直 到 100Mbit/s 链 路 饱和 为 止 。 此 
Wf, fE VN 的 路 由 器 上 手工 地 执行 脚本 。 

图 6. 13 画 出 两 台 主机 cronos 和 dionisio 之 间 的 网 络 时 间 (RTT) ， 这 两 台 机 器 
使 用 饱和 的 LOOMbit/s 链 路 由 VN B (图 6. 12 中 的 虚拟 的 B) 连接 。 在 时 刻 40s 处 ， 
执行 将 虚拟 链 路 的 映射 从 100Mbit/s 改变 为 1Gbit/s 的 脚本 。 可 观察 到 这 次 改变 使 这 
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图 6.13 虚拟 网 络 B 的 各 主机 之 间 的 RTT 
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两 台 主 机 之 间 的 RTT 值 降低 的 结果 。 在 时 刻 60s 处 ， 执 行 脚本 ， 返 回 到 100Mbit/s 
链 路 的 虚拟 链 路 映射 。 结 果 RTT 增加 到 其 初始 范围 值 。 

在 6.7 节 将 描述 一 个 试验 ， 它 类 似 在 本 节 中 摘要 描述 的 试验 。 区 别 在 于 前 者 采 
用 各 PA 采取 动作 的 情况 下 实施 的 ， 而 不 是 手工 执行 脚本 。 


6.6 多 代理 APS 


本 节 在 测试 床 内 实现 一 个 多 代理 APS， 实 施 VN 的 管理 [SOA 12]。 各 PA 运 
行 在 网 络 的 各 节点 上 ， 如 图 6. 14 所 示 。APS 中 的 各 PA 应 该 监测 和 控制 物理 资源 
和 虚拟 资源 。 采 用 来 自 Ginkgo 平台 版 本 2. 0. 13 的 支持 ， 开 发 了 APS, RH Java 版 
本 1. 6. 0-21 编译 和 执行 各 PA。 对 于 由 各 PA 实施 的 VN 监测 ， 使 用 libvirt-java 库 版 
本 0.4.6。 
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(ethl:1) — (ethO) (ethl) (ethO) (ethl) (brl:l/ethl:1) 


图 6.14 物理 路 由 器 中 的 各 PA， 它 们 管理 虚拟 路 由 器 


在 KB 中 ， 每 个 网 络 资源 遵循 一 个 信息 模型 。 每 个 资源 受到 单个 PA 的 控制 ， 
因此 ， 在 KB 中 这 个 资源 的 每 种 表示 都 是 唯一 的 。 在 信息 模型 中 ， 链 路 是 有 向 的 ， 
即 每 条 线路 (wire) 都 表示 为 相反 方向 的 两 条 链 路 。 各 PA 位 于 路 由 器 中 ， 且 它们 
在 一 条 直接 链 路 上 发 送 数 据 ， 监 测 和 控制 该 链 路 。 依 据 参考 文献 [FAJ 10], 
图 6. 15 给 出 信息 模型 的 类 图 。 

邻居 关系 由 域内 各 路 由 器 的 所 有 PA 组 成 。Ginkgo 平台 中 的 所 有 通信 都 基于 
KB 中 存储 的 信息 的 传播 扩散 。 以 一 种 同 构 的 和 有 结构 的 方式 ，KB 存储 由 各 PA 使 
用 的 数据 (节点 的 拓扑 信息 、 状 态 等 )， 并 提供 这 个 知识 在 各 PA 间 的 传播 扩散 机 
制 。 一 个 PA 有 其 自己 环境 ( 共 置 视图 概念 ) 的 视图 可 直接 采用 KB 实现 。 在 一 个 
PAW, KKB 可 被 看 作 一 个 共用 的 黑板 ， 可 由 各 行为 访问 。 那 些 行为 实现 自治 处 
理 ， 并 作为 有 机 构成 组 件 ， 永 久 地 将 它们 自己 适 配 于 环境 变化 。 这 些 组 件 的 整体 功 
能 是 由 动态 规划 器 编排 的 ， 后 者 遵循 由 应 用 程序 员 提 供 的 一 个 策略 。 动 态 规划 器 操 
作 存 储 于 KB 中 的 有 结构 的 知识 。 
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图 6.15 各 PA 的 信息 模型 


在 这 个 实现 中 ， 各 PA 有 四 种 行为 : Monitor、Analyze Plan 和 Execute， 它 们 
是 以 顺序 方式 周期 地 执行 的 ， 形 成 管理 器 的 自治 周期 。 下 面 列 出 它们 的 动作 : 

1) Monitor (监测 ) : 通过 libvirt 收集 来 自 网 络 接口 的 数据 ， 并 馈 人 KB。 

2) Analyze (分 析 ) : 评估 物理 网 络 链 路 的 使 用 情况 。 如 果 利 用 率 超过 策略 中 
EMMA, WWE KB 中 更 新 物理 链 路 信息 ， 通 知 其 他 行为 。 

3) Plan (规划 ) : 当 分 析 行 为 表明 一 次 威胁 ， 即 它 选择 另 一 条 物理 链 路 〈 如 
果 有 的 话 ) 来 接收 一 条 虚拟 链 路 (映射 到 过 载 的 链 路 ) 的 一 条 流 ， 此 时 规划 动作 。 

4) Execute (执行 ) : 执行 动作 ， 通 过 KB ， 将 变化 通知 其 他 行为 和 各 PA, 

策略 文件 有 一 个 规则 集 ， 在 每 个 PA 周期 都 要 对 之 进行 评估 ( 见 图 6.16)。 各 
规则 有 一 个 名 字 和 一 个 条 件 表 达 式 。 规 则 RINIT ( 行 2) 使 用 impulse init 条 件 ， 一 
旦 处 于 PA 执行 的 开始 ， 它 就 是 真 的 。 在 这 条 规则 中 ， 采 用 start 原 语 配置 和 启动 各 
行为 。 遵 循 策略 文件 ， 在 KB 中 设置 和 得 到 值 ， 也 是 可 能 的 。 规 则 RINIT 中 的 第 一 
个 动作 是 将 control 个 体 对 象 的 speed 属性 值 设置 为 1.0 ( 行 3) 。 这 个 值 代表 以 秒 为 
单位 表示 的 各 行为 周期 的 当前 时 长 。 这 个 时 长 采用 changerate 原 语 定义 。 行 为 调用 
顺序 可 由 其 优先 级 控制 ， 采 用 changeprio 原 语 定义 。 采 用 setcontrol 原 语 为 这 些 行为 
配置 参数 。 动 态 规划 器 应 用 策略 并 将 threshold 属性 设置 为 0.5 ( 行 7)。 这 个 值 表 
示 物 理 链 路 使 用 的 一 个 百分比 。 当 Analyze 行为 打开 speedup 标志 和 当前 speed 是 
1.0 时 ， 规 则 RFASTER ( 行 17) 将 各 行为 周期 的 时 长 改变 为 0.2s。 当 Analyze 行 
为 关闭 speedup 标志 且 当 前 speed 是 0.2 时 ， 规 则 RNORMAL (1723) 将 这 个 周期 
时 长 设置 回 1. 0s。 
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[frame=lines,fontsize=\small ,numbers=left] 
(policy (subgoal main (rules 
(rule RINIT if (impulse init) 
(set control.speed 1.0) 
(changerate MonitorBehavior 1.0) 
(changeprio MonitorBehavior 3) 
(start MonitorBehavior) 
(setcontrol AnalyseBehavior.threshold 0.5) 
(changerate AnalyseBehavior 1.0) 
(changeprio AnalyseBehavior 2) 
(start AnalyseBehavior) 
(changerate PlanBehavior 1.0) 
(changeprio PlanBehavior 1) 
(start PlanBehavior) 
(changerate ExecuteBehavior 1.0) 
(changeprio ExecuteBehavior 4) 
(start ExecuteBehavior))) 
(rule RFASTER if (and control.speedup (= control.speed 1.0)) ( 
(set control.speed 0.2) 
(changerate MonitorBehavior 0.2) 
(changerate AnalyseBehavior 0.2) 
(changerate PlanBehavior 0.2) 
(changerate ExecuteBehavior 0.2))) 
(rule RNORMAL if (and (not control.speedup) (= control.speed 0.2)) ( 
(set control.speed 1.0) 
(changerate MonitorBehavior 1.0) 
(changerate AnalyseBehavior 1.0) 
(changerate PlanBehavior 1.0) 


一 


(changerate ExecuteBehavior 1.0)))))) 


图 6.16 策略 文件 的 规则 


6.7 结果 


评估 了 依据 变化 的 环境 ， 在 各 VN 上 自动 适 配 (由 多 代理 APS 实施 ) 的 时 间 
和 报 文 丢 失 。 这 些 动作 类 似 于 6.5.2 节 中 给 出 的 那些 动作 。 但 是 ， 在 这 个 试验 中 ， 
虚拟 路 由 器 是 基于 KVM 版 本 0. 12. 5 的 VM。 为 创建 和 操作 这 些 虚 拟 路 由 器 ， 使 用 
Libvirt 版 本 0. 8. 3。 物 理 机 器 和 各 VM 都 包含 操作 系统 Debian GNUZLinux ， 内 核 版 
本 为 2. 6.32。 通 过 物理 节点 内 虚拟 交换 机 中 的 虚拟 接口 和 规则 ， 在 数据 链 路 层 创 
建 虚 拟 链 路 。 使 用 Open vSwiteh [PFA 09] 版 本 1.3.0 作为 虚拟 交换 机 ， 并 使 用 
ovs- ofctl 工具 控制 各 条 流 。 

在 策略 文件 〈 见 图 6. 16) 中 给 出 各 PA 的 配置 参数 。 在 正常 状态 中 ， 自 治 周期 
的 行为 是 以 1. 0s 的 间隔 运行 的 ， 此 时 网 络 中 所 有 物理 链 路 的 利用 率 都 低 于 Analyze 
行为 中 设置 的 threshold. (配置 为 50% ) 。 当 发 生 一 次 过 载 时 ， 周 期 频率 增加 到 每 秒 
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运行 5 次 的 一 个 速率 ， 即 间隔 为 0. 2s。 

图 6. 17 给 出 整个 试验 过 程 中 物理 链 路 的 利用 率 。 由 iperf 应 用 产生 的 一 条 UDP 
流 ， 以 恒定 速率 70Mbit/s 传输 通过 VN A， 在 5. 0s 时 开始 传输 。 快 速 以 太 网 物理 链 
路 达到 70% 的 利用 率 ， 超 过 在 Analyze 行为 上 定义 的 threshold， 则 Plan 行为 开始 实 
施 纠正 动作 。PA 用 掉 1. 0s 时 间 识 别 到 这 种 状况 ， 并 对 网 络 实施 调整 。 


zeus.eth1.tx( 快 速 以 太 网 ) 一 一 
Zeus.eth0.tx([ 千 兆 以 太 网 ) 








5 10 
时 间 /s 


图 6.17 物理 链 路 的 利用 率 
图 6.18 给 出 VN A 上 的 流量 。 如 图 所 示 ， 视频 没有 影响 VN 吞吐 量 。 这 意味 
着 ,将 虚拟 链 路 迁移 到 一 条 新 的 路 径 不 会 诱发 报 文 丢 失 。 在 这 个 场景 中 ， 虚 拟 节点 


apolo.eth0:1.rx 


吞吐 量 /(Mbit/s) 








10 
时 间 /s 


图 6.18 虚拟 网 络 A 中 的 流量 
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horizonzeusA 和 horizondionisioA 之 间 的 虚拟 链 路 ， 被 映射 到 物理 节点 zeus 和 dionisio 
之 间 的 单条 物理 链 路 上 ( 见 图 6. 14) 。 如 果 在 路 径 上 存在 其 他 基层 节点 ， 则 多 代理 
APS 将 必须 做 出 路 径 上 的 后 向 适 配 ， 以 确保 没有 报 文 丢失 。 


6.8 用 于 虚拟 网 络 自 管理 的 多 代理 系统 


本 节 介 绍 自治 计算 技术 如 何 可 被 应 用 到 VN 的 管理 。 它 给 出 一 种 分 布 式 架构 ， 
在 一 个 基层 网 络 (作为 PP 的 组 成 部 分 ) 之 上 支持 VN 的 自 管 理 。NE 的 自治 管理 
器 维护 监测 、 分 析 、 规 划 和 执行 的 一 个 控制 闭环 ， 为 下 一 次 迭代 向 一 个 KB 提供 馈 
人 和 人。 焦点 是 VN 的 自 愈 ,但 VN 自 管理 的 分 布 式 架构 足够 通用 ， 可 由 自治 计算 中 的 
其 他 功能 使 用 ， 如 自 配 置 、 自 优化 和 自 保护 。 在 下 面 也 介绍 了 相关 工作 ， 给 出 这 项 
工作 主要 贡献 的 语 境 。 

在 参考 文献 [HOU 10] 中 给 出 资源 失效 和 严重 性 能 降级 情况 时 ， 维 护 SLA 
的 一 个 多 代理 系统 。 基 于 物理 节点 的 相似 性 ， 各 代理 形成 组 并 管理 之 。 也 使 用 相 
似 性 功能 ， 来 选择 在 出 现 故障 时 恢复 虚拟 节点 。 架 构 也 基于 多 代理 系统 ， 且 通过 
从 备份 内 存 恢 复 虚 拟 路 由 器 ， 实 现 VN 的 快速 恢复 机 制 ， 以 降低 路 由 协议 的 收敛 
时 间 。 

在 参考 文献 [MAR 10] 中 ， 给 出 一 个 分 布 式 管理 架构 ， 自 组 织 VN 的 目标 是 
维护 物理 资源 的 有 效 利用 率 。 用 于 自 组 织 的 算法 基于 自治 控制 环 。 它 监测 目标 链 
路 ， 并 通过 迁移 虚拟 节点 ， 尝 试 最 小 化 网 络 中 的 流量 负载 。 给 出 类 似 架 构 ， 并 实现 
一 个 原型 ， 焦 点 放 在 VN 的 自 愈 上 ， 以 此 评估 所 提出 的 建议 。 


6.8.1 原型 实现 


图 6. 19 形象 地 给 出 建立 的 测试 床 ， 用 来 测试 在 一 个 受 控 环境 中 的 系统 。 网 络 
核心 由 4 台 机 器 组 成 : zeus 、atlas 、dionisio 和 cronos。 机 器 zeus 和 dionisio 也 通过 
千 兆 交换 机 连接 到 主机 apolo, hermes, nix 和 artemis。 在 基层 网 络 上 ， 创 建 了 由 三 
台 虚 拟 路 由 器 组 成 的 两 个 VN。 虚 拟 路 由 器 的 映像 在 一 个 库 中 ， 可 通过 网 络 文件 系 
统 (NFS) 由 基层 网 络 中 的 所 有 机 器 访问 。 物 理 机 器 和 VM 都 有 操作 系统 Debian 
GNU/Linux， 内 核 版 本 为 2. 6. 32, 

用 于 测试 床 的 创建 和 代理 操作 的 各 VM 的 管理 ,使 用 Libvirt Æ [COU 10], € 
为 各 种 虚拟 平台 (包括 Xen) 的 监测 和 控制 提供 一 个 API。 在 用 于 VN 自 管理 的 系 
统 中 使 用 Libvirt， 使 之 独立 于 采用 的 虚拟 化 技术 。 

各 代理 运行 在 网 络 核心 的 物理 机 器 上 : zeus 、atlas 、dionisio 和 cronos。 使 用 
Ginkgo 平台 [GIN 08] 实现 各 代理 。 它 支持 轻 量 和 可 移植 代理 的 创建 ， 这 有 助 于 
它们 在 异 构 环境 中 的 部 署 。Ginkgo 是 一 个 框架 ， 它 有 架构 的 基本 构造 块 。 

多 代理 系统 必须 实施 各 VN 的 灾难 恢复 。 由 于 虚拟 路 由 器 、 物 理 节点 ， 甚 至 物 
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horizon.zeus.a horizon.atlas.a horizon.dionisio.a 
' 1 
LI 





dionisio 
; 
ES 1 -i 1 Ss 
hermes 1 cronos 1 artemis 
: : P 
. 





horizon.zeus.b horizon.cronos.b horizon.dlonlslo.b 


图 6.19 建立 的 测试 床 ， 确认 虚拟 网 络 自 管理 的 多 代理 系统 


理 链 路 中 的 问题 而 发 生 故障 。 在 第 一 种 情形 中 ,负责 虚拟 路 由 器 的 代理 必须 诊断 故 
障 和 将 故障 通知 其 他 代理 。 在 其 他 情形 中 ， 该 代理 也 可 停止 通信 ， 因 此 各 邻居 必须 
诊断 故障 。 

实现 了 用 于 VN 自 愈 的 一 个 自治 控制 环 。 该 环 受到 动态 规划 器 的 控制 ， 并 由 四 
种 行为 组 成 : Monitor、Analyze Plan 和 Execute。 各 代理 以 这 个 顺序 定期 地 实施 这 
些 行为 。 它 们 如 下 描述 : 

1) Monitor (监测 ) : 从 虚拟 和 物理 节点 收集 数据 ， 并 人 馈 人 KB。 

2) Analyze (分 析 ) : 在 虚拟 路 由 器 或 物理 节点 内 邻居 关系 上 实施 故障 诊断 。 

3) Plan (规划 ) : 基于 基层 节点 的 使 用 情况 ， 计 算 它 的 成 本 。 有 多 个 虚拟 路 
由 需 节 点 运行 于 其 上 的 物理 节点 具有 最 高 成 本 。 它 也 将 这 个 信息 传播 到 其 他 
代理 。 

4) Execute (执行 ) : 验证 邻居 关系 上 所 有 代理 是 否 已 经 发 送 它 们 的 信息 。 如 
果 是 的 话 ， 则 物理 节点 中 具有 最 低 成 本 的 代理 恢复 失效 的 虚拟 路 由 器 。 

在 一 台 主 机 机 器 上 创建 一 个 特殊 代理 。 这 个 代理 是 邻居 关系 的 成 员 ， 并 接收 其 
他 代理 的 信息 。 它 执行 一 个 行为 来 创建 和 更 新 一 个 图 形 界面 。 这 个 代理 对 形成 这 样 
一 个 架构 原型 是 有 贡献 的 ， 即 由 具有 不 同 能 力 和 认 知 等 级 的 混合 代理 组 成 。 在 这 种 
情形 中 ， 它 在 基层 上 实施 拓扑 的 可 视 化 和 VN 的 映射 ， 并 以 图 表 形 式 显 示 由 其 他 代 
理 的 Monitor 行为 收集 的 信息 。 图 形 界面 如 图 6. 20 所 示 。 


6.8.2 试验 结果 


各 试验 的 目的 是 验证 VN 自 管 理 的 架构 ， 并 在 存在 物理 单元 故障 情况 下 ， 测 试 
恢复 虚拟 路 由 咒 的 不 同方 法 。 可 依据 下 式 ， 设 置 从 一 个 VN 的 恢复 时 间 T, : 

T, T,*T, «T, «T, (6.1) 

式 中 ,7 是 诊断 故障 的 时 间 ; 7, 是 花费 在 规划 动作 上 的 时 间 ， 涉 及 在 各 代理 之 间 交 
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[6.20 多 代理 系统 的 图 形 界面 


换 信息 ; TÆ VM 的 实例 化 时 间 ; 7. 是 路 由 协议 的 收敛 时 间 。 

研究 了 恢复 虚拟 路 由 器 的 两 种 方式 。 第 一 种 方式 从 库 中 的 映射 文件 创建 一 个 
VM， 启 动 寄 居 操 作 系 统 。 第 二 种 方式 从 备份 内 存 文件 中 (也 在 库 中 ) 恢复 机 
器 。 在 这 种 情形 中 ， 启 动 寄 居 操 作 系统 就 不 需要 时 间 ， 且 路 由 协议 的 收敛 时 间 就 
较 小 。 

采用 VN 中 的 静态 路 由 和 动态 路 由 实施 各 执行 。 静 态 路 由 器 是 人 工 配 置 在 虚拟 
路 由 器 中 的 。 对 于 动态 路 由 器 ， 使 用 Quagga 路 由 套件 [ISH 13 ] ， 运 行 开 放 最 短路 
径 优先 (OSPF) 算法 。 

第 一 个 试验 是 在 没有 多 代理 系统 的 条 件 下 在 测试 床 中 实施 的 。 实 施 了 带 有 静态 
路 由 的 一 台 虚 拟 路 由 器 的 迁移 ， 同 时 一 条 UDP 流 以 SOOKbit/s 恒定 速率 从 apolo 到 
nix 传输 通过 VN. FFA Iperf 工具 产生 流量 。 图 6. 21 中 的 曲线 给 出 流速 率 ; 一 个 零 
值 指明 网 络 中 的 丢失 。 所 有 迁移 将 虚拟 路 由 需 horizon. cronos. b 的 映射 从 cronos 改 
变 到 atlas ， 并 在 接近 8s 时 开始 。 

在 第 一 次 运行 中 ， 图 6. 21 中 的 曲线 “创建 "， 在 物理 路 由 器 cronos 处 销毁 虚 
拟 路 由 器 ， 并 在 物理 路 由 器 atlas 处 重新 创建 。 在 这 种 情形 中 ， 恢 复 需要 27s， 主 要 
是 由 于 启动 操作 系统 的 时 间 导 致 的 。 在 第 二 次 运行 中 ， 图 6. 21 中 的 曲线 “恢复 ”， 
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图 6.21 没有 多 代理 系统 的 各 试验 


虚拟 路 由 器 的 状态 被 存储 在 网 络 文件 库 中 ， 在 物理 路 由 器 cronos 处 停止 虚拟 路 由 
器 ， 保 存在 映像 库 中 ， 并 在 物理 路 由 器 atlas 处 恢复 。 即 使 采用 内 存 节 省 花费 较 多 
时 间 ， 该 过 程 仅 用 去 在 第 一 个 试验 中 所 用 时 间 的 45% 。 第 三 次 运行 使 用 KVM 提供 
的 迁移 服务 。 在 基本 迁移 中 ,在 第 三 次 运行 中 执行 ， 图 6. 21 中 的 曲线 “迁移 ”， 
停止 VM， 内 存在 网 络 上 从 源 复制 到 目的 地 ， 之 后 在 目的 地 处 恢复 该 机 器 。 这 种 状 
况 类 似 于 第 二 次 运行 ,例外 是 复制 直接 从 物理 路 由 器 cronos 传递 到 物理 路 由 器 
atlas, ， 而 不 是 通过 一 个 中 间 机 器 ， 且 这 得 到 的 时 间 是 第 一 次 运行 中 所 用 时 间 的 
37% 。 在 这 两 种 情况 中 ， 当 机 器 恢复 时 ， 网 络 中 存在 一 个 峰值 。 发 生 这 种 情况 是 因 
为 在 保存 VM 内 存 时 的 时 刻 ， 在 缓存 中 存在 报 文 ， 这 些 报 文 被 添加 到 VM 被 重新 激 
活 的 时 刻 到 达 的 那些 报 文 。 第 四 次 运行 ， 图 6. 21 中 的 曲线 “实现 迁移 ”， 是 采用 
实况 迁移 实施 的 ， 其 中 在 VM 运行 时 将 内 存 从 源 复 制 到 目的 地 ， 且 仅 有 此 时 ， 即 控 
制 被 传递 时 ， 没 有 更 多 的 修改 页 。 采 用 这 种 方式 ， 迁 移 一 台 虚 拟 路 由 器 花费 较 少 时 
间 ， 原 因 是 传输 仅 中 断 最 短 时 长 ， 相 比 第 一 次 运行 ， 时 间 要 少 15% 。 

图 6. 22 中 的 曲线 给 出 分 布 式 管理 系统 试验 的 结果 ，UDP 流量 采用 Iperf 工具 产 
生 。 图 6. 22a 给 出 采用 静态 路 由 的 执行 情况 ， 图 6. 22b 采用 动态 路 由 。 在 这 幅 图 
中 ， 比 较 了 从 映像 文件 创建 虚拟 路 由 器 的 方法 以 及 从 备份 内 存 文件 中 恢复 VM 的 方 
法 。 在 所 有 运行 中 ,一 条 以 20Mbit/s 恒定 速率 从 apolo 通过 虚拟 网 络 B 发 送 到 nix, 
且 各 条 曲线 画 出 随时 间 变 化 的 流速 率 。 

在 10s 之 后 ， 物 理 路 由 器 cronos 从 网 络 断 开 。zeus 、atlas 和 dionisio 中 的 各 代 
理 诊 断 cronos 的 故障 ， 原 因 是 它们 没有 接收 到 cronos 的 KB 传播 。 在 这 个 试验 中 ， 
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6.22 采用 多 代理 系统 和 Iperf 的 各 试验 
a) 静态 路 由 b) 动态 路 由 


各 代理 每 隔 0. Ss 实施 Monitor 行为 和 KB 传播 ， 有 关 一 个 物理 节点 的 信息 在 1s 以 上 
就 过 期 了 。 因 此 ， 故 障 诊 断 的 时 间 变 化 范围 在 1 ~1. 5s 之 间 。 之 后 ， 代 理 进 入 Plan 
(规划 ) 行为 ， 此 时 它 计算 物理 节点 成 本 ， 这 将 在 下 一 跳 中 发 送 到 其 他 代理 。 
Execute (执行 ) 行为 等 待 所 有 代理 发 送 它们 的 物理 节点 成 本 。zeus 和 dionisio 的 成 
本 较 高 ， 原 因 是 它们 运行 两 个 虚拟 路 由 器 。atlas 中 的 代理 恢复 horizon. cronos. b; 
atlas 从 映像 中 创建 VM， 或 从 备份 内 存 中 恢复 。 
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实施 了 在 VN 上 安全 复制 协议 (SCP) 应 用 的 另 一 项 试验 ， 结 果 如 图 6. 23 所 
示 。SCP 产生 传输 控制 协议 (TCP) 流量 。 一 个 1GB 文件 使 用 VN B 从 hermes 传输 
到 artemis。 对 于 每 个 场景 ， 实 施 10 次 运行 ， 采 用 9596 的 置信 水 平 推导 置信 区 间 。 
所 有 执行 都 是 在 类 似 网 络 条 件 下 实施 的 。 

在 这 个 试验 中 ， 出 于 比较 目的 ， 在 没有 代理 作为 基础 的 情况 下 实施 各 次 执行 。 
首先 ,测量 了 通过 路 径 A (zeus—cronos—dionisio) 和 路 径 B (zeus 一 >atlas 一 >dionisio) 
发 送 文件 的 时 间 。 如 图 6. 23 所 示 ， 路 径 A 和 路 径 B 的 流速 率 是 不 同 的 。 因 此 ,在 
启动 SCP 传输 之 后 10s 时 ， 实 施 从 cronos 到 atlas 的 实况 迁移 。 这 被 用 作 比 较 的 一 
个 基础 ， 即 下 限 结果 ， 因 为 实况 迁移 具有 最 低 的 下 限时 间 。 接 下 来 ， 执 行 带 有 代理 
系统 的 试验 ， 来 实施 VN 的 恢复 。 在 这 些 场景 中 ， 也 是 在 10s 之 后 在 物理 节点 cro- 
nos 中 发 生 一 次 故障 。 同 样 ， 多 代理 系统 选择 atlas 恢复 horizon. cronos. b。 实 施 带 有 
故障 的 四 个 场景 ， 组 合 路 由 方案 (动态 的 和 静态 的 ) 和 虚拟 路 由 器 恢复 方法 ,或 
者 从 映像 创建 VM， 或 者 从 备份 内 存 恢复 VM. 
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图 6.23 采用 多 代理 系统 和 SCP 的 各 项 试验 


取决 于 要 被 恢复 的 虚拟 路 由 器 方式 ,在 VN 的 恢复 时 间 方 面 存 在 相当 差异 。 当 
使 用 动态 路 由 时 ， 由 于 路 由 算法 的 收敛 时 间 ， 差 异 是 较 大 的 。 在 这 种 情形 中 ， 通 过 
创建 VM 的 恢复 花费 43. 6s， 在 采用 多 代理 系统 的 Iperf 试验 中 ， 有 静态 路 由 的 方法 
用 时 26. 4s。 当 与 静态 和 动态 场景 中 的 下 限 值 比较 时 ， 完 成 SCP 传输 的 时 间 平 均 分 
别 要 高 52% 和 122% 。 给 定 路 由 协议 收敛 时 间 ， 在 动态 路 由 场景 中 各 VM 的 创建 方 
法 有 一 个 较 大 的 方差 。 

在 VM 状态 从 备份 内 存 恢复 的 方法 中 ， 路 由 类 型 具有 较 低 的 影响 。 在 静态 和 动 
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态 场 景 中 ， 在 采用 多 代理 系统 的 Iperf 试验 中 ， 恢 复 时 间 大 约 为 3. 3s。 当 与 静态 和 
动态 场景 中 的 下 限 值 比较 时 ， 对 SCP 传输 时 间 的 影响 分 别 大 约 为 5 多 和 18% 。 

结果 表明 ， 从 内 存 备份 恢复 VM 的 方法 ， 特 别 当 处 理 虚 拟 路 由 器 时 ， 会 降低 路 
由 协议 的 收敛 时 间 。 虽 然 这 种 方法 是 比较 快速 的 ， 节 省 传输 和 存储 ， 但 备份 内 存 会 
导致 对 网 络 性 能 的 严重 影响 。 这 种 备份 可 发 生 在 网 络 空闲 的 时 刻 ， 这 导致 对 其 操作 
的 较 少 影响 。 也 可 使 用 分 布 式 存储 和 内 存 气 球 法 来 降低 这 个 额外 负担 。 


6.9 小 结 


Horizon 项 目 提出 一 种 新 的 系统 或 平面 PP， 它 支持 网 络 中 各 自治 控制 环 的 协 
作 。 作 为 对 变化 语 境 的 响应 和 符合 高 级 目标 与 策略 ，PP 监管 和 集成 网 络 控制 门 
(doors) 的 行为 。 本 章 给 出 Horizon 项 目 中 PP 的 初始 设计 ， 定 义 了 其 功能 ， 各 组 件 
操作 背后 的 需求 和 概念 。PP 寄居 几 个 APS， 且 它 涉 及 一 个 或 多 个 PA 和 一 个 动态 
KB, KB 由 一 个 数据 模型 和 本 体 集合 以 及 合适 的 映射 逻辑 组 成 。 

一 个 PA 是 Horizon 项 目 架 构 的 一 个 功能 实体 ， 处 理 域 间 管理 任务 ， 如 各 管理 
域 的 联邦 、 协 商 、 监 管 和 分 发 。 各 APS 有 两 个 主要 构造 块 。 第 一 个 是 动态 规划 器 ， 
它 用 作 一 个 自治 的 基于 策略 的 分 发 器 。 动 态 规划 器 创建 和 销毁 行为 ， 并 实现 各 PA 
和 核心 管理 功能 间 的 接口 。 第 二 个 构造 块 代表 一 种 行为 ， 有 两 项 功能 。 第 一 项 功 
能 ， 由 核心 行为 实施 ， 实 现 引导 任务 。 第 二 项 功能 ， 由 PA 行为 实现 ， 作 为 各 APS 
与 APS 所 编排 的 各 PA 通信 的 一 个 代理 。 

另外 ， 给 出 来 自 一 个 APS 原型 的 一 些 结 果 ， 基 于 由 Ginkgo 平台 提供 的 多 代理 
来 实现 各 PA。 

一 个 APS 管理 各 VN 的 思路 也 可 应 用 到 一 个 云 环 境 。 图 6. 24 形象 地 展示 了 
在 这 个 方面 探索 的 一 些 思路 。 这 幅 图 给 出 一 个 VN， 它 的 组 成 为 : 5 个 VM [它们 
在 一 个 云 环境 (CloudRequest 的 实例 ) 中 运行 任务 ] 构成 的 一 个 组 和 寄居 在 物理 
机 器 [连接 到 网 络 基 层 (VM-Server-Park) ] 上 的 各 VM 构成 的 组 。 网 络 管理 由 
各 PA 完成 ， 它 们 不 断 地 监测 资源 。 每 种 资源 ， 无 论 物 理 的 还 是 虚拟 的 ， 都 至 少 
有 一 个 PA， 负 责 动作 的 监测 和 执行 。 各 PA 可 被 分 组 为 域 ( 邻居 关系 ) 。 该 图 给 
出 联合 动作 的 PA 的 两 个 邻居 关系 。 一 个 邻居 关系 由 监测 VN ( CloudRequest 的 实 
例 ) 的 各 PA 组 成 ， 它 们 从 另 一 个 邻居 关系 中 的 各 PA 请 求 动作 ， 后 者 监测 网 络 
基层 ( VM- Server- Park) 。 动 作 的 一 个 例子 可 以 是 增加 VN 带宽 的 一 条 请 求 。 
图 6. 24 也 形象 地 给 出 其 他 类 型 的 PA， 辅助 云 的 任务 管理 ， 如 电源 管理 以 及 基于 
SLA 的 管理 。 

最 后 ， 给 出 一 个 自 管理 系统 原型 ， 其 中 通过 使 用 一 个 多 代理 系统 ， 将 自治 网 络 
的 概念 应 用 到 一 个 虚拟 化 环境 。 在 要 求 自 管理 失效 (ERO 的 场景 中 ， 评 估 自 治 
自 管理 环境 。 使 用 这 个 基础 设施 来 构建 原型 。 
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第 7 音 管理 和 控制 : 共 置 视图 


网 络 虚 拟 化 技术 支持 在 唯一 的 物理 基层 之 上 运行 多 个 虚拟 网 络 。 通 过 使 用 一 个 
控制 和 管理 实体 取得 这 项 功能 ， 该 实体 复 用 硬件 访问 ， 并 向 被 虚拟 系统 提供 资源 的 
逻辑 分 片 。 一 个 被 虚拟 化 的 联网 系统 的 主要 原 语 是 : 虚拟 网 络 的 创建 和 销毁 ， 虚 拟 
节点 的 迁移 以 及 虚拟 网 络 在 物理 基层 上 的 映射 。 

在 Xen 和 OpenFlow 的 标准 版 本 中 ， 所 有 上 述 原 语 都 是 手工 运行 的 ， 这 意味 
着 扩展 性 和 管理 问题 。 因 此 ， 提 出 和 开发 了 一 个 引导 平面 ， 该 平面 能 够 自治 地 执 
行 这 些 原 语 。 也 开发 了 一 个 知识 平面 ， 它 与 引导 平面 一 起 工作 ， 检 测 何 时 虚拟 网 
络 不 再 按照 期 望 那样 工作 ， 则 结果 就 要 求 对 其 属性 的 修改 (通过 执行 原 语 )。 知 
识 平面 监测 虚拟 路 由 器 ， 得 到 它们 的 使 用 情况 概要 ， 并 通过 使 用 预测 机 制 ， 先 验 
地 检测 虚拟 网 络 配置 中 更 新 的 必要 性 。 知 识 平面 存储 与 每 个 虚拟 网 元 有 关 的 信 
息 ， 支 持 管理 决策 和 先 验 的 网 络 维护 。 因 为 扩展 性 问题 ， 知 识 平 面 被 分 布 在 不 同 
节点 中 。 因 此 ， 每 个 节点 保持 知识 平面 的 一 个 部 分 视图 ， 该 视图 限制 在 其 邻居 关 
系 和 周边 环境 。 这 个 部 分 视图 被 称 作 一 个 节点 的 共 置 视图 。 知 识 平面 的 主要 挑战 
是 采取 决策 的 时 间 调 度 和 网 元 信息 更 新 。 定 义 和 选 择 必 须 存储 于 知识 平面 上 的 信 
息 ， 还 有 这 个 信息 将 被 存储 在 哪些 节点 上 。 最 后 ， 基 于 性 能 和 服务 质量 (QoS) 
度量 元 ， 为 每 种 类 型 的 信息 定义 更 新 频率 。 由 于 扩展 性 ， 仅 处 理 共 置 视 图 信息 而 
不 是 整个 网 络 信息 。 

开发 了 一 个 分 布 式 机 制 集 合 ， 来 检测 和 修正 虚拟 网 络 异 常 。 各 机 制 识别 和 存储 
网 络 状态 变化 ， 也 预测 可 变 的 演化 情况 。 所 提供 机 制 良好 地 适合 于 Xen 和 Open- 
Flow 平台 ， 但 这 里 仅 描 述 Xen 平台 的 机 制 。 

提出 的 第 一 种 方法 基于 一 种 动态 分 配 系统 的 开发 ， 该 系统 分 析 一 台 虚 拟 路 由 器 
的 资源 利用 率 概要 ， 并 基于 QoS 度量 元 和 服务 水 平 协议 (SLA) 提供 资源 的 公平 共 


供 合 适 的 和 更 新 的 信息 ， 也 检测 路 由 器 的 不 当 行 为 。 这 两 种 方法 一 起 构成 检测 更 新 
需要 以 及 当 违反 SLA 时 (也 可 能 触发 更 新 告警 ) 的 一 个 框架 。 

本 章 组 织 如 下 。7. 1 节 描 述 抽取 和 存储 虚拟 网 络 概要 的 机 制 。 同 时 ， 依 据 得 到 
的 概要 和 定义 好 的 SLA (基于 模糊 逻辑 ) ， 描 述 所 实现 的 一 个 QoS 控制 器 。7. 2 节 
详细 解释 监测 套件 和 预测 器 ， 它 们 用 来 检测 从 各 节点 得 到 的 许多 参数 中 变化 的 需 
要 。7.3 节 对 本 章 做 出 结论 。 
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7.1 动态 SLA 控制 器 


本 节 给 出 评估 一 台 虚 拟 路 由 器 环境 上 更 新 需要 的 系统 。 这 个 系统 动态 地 控制 一 
个 虚拟 化 网 络 环境 的 SLA， 并 提供 其 QoS 保障 。 


7.1.1 有 关 虚 拟 网 络 QoS 的 背景 知 


在 参考 文献 中 找到 的 人 们 提出 的 动态 分 配 机 制 主要 将 焦点 放 在 服务 器 合并 上 ， 
没有 很 好 地 涵盖 虚拟 路 由 器 资源 分 配 。Sandpiper [WOO 07] 是 监测 一 个 数据 中 心 
中 虚拟 机 的 一 个 系统 ， 并 将 虚拟 机 迁移 到 不 同 物理 服务 器 ， 目 的 是 取得 一 种 分 布 式 
虚拟 机 配置 ， 这 种 配置 可 最 大 化 性 能 办 降低 资源 的 滥用 。 为 避免 诸如 拒绝 服务 
(DoS) 攻击 等 不 当 行为 ， 通 过 使 用 时 间 序 列 ，Sandpiper 分 析 了 每 台 虚 拟 机 的 资源 
使 用 概要 。 每 台 虚 拟 服务 器 的 资源 利用 率 由 一 个 体 量度 量 元 Vol 定义 ， 表 示 为 


1 1 1 (7.1) 


l -cpu l1-mem 1l-met 
式 中 ，cpu 是 处 理 器 利用 率 百 分 比 ; mem 意 指 内 存 利用 率 ; net 表示 网 络 利 用 率 。 

Meng 等 [MEN 10] 提出 在 一 个 由 物理 服务 器 组 成 的 网 格 中 提供 最 佳 虚拟 化 服 
务 器 分 配 的 算法 ， 目 的 是 改进 网 络 扩展 性 并 优化 通信 链 路 中 的 带宽 利用 率 。 为 减少 
相互 交换 数据 的 服务 器 之 间 的 距离 ， 在 物理 服务 器 上 实例 化 虚拟 服务 器 。Menasc6 
等 [MEN 06] 将 自治 计算 技术 应 用 到 控制 虚拟 机 间 的 处 理 器 共享 。 作 者 提供 一 种 
动态 分 配 算法 ， 通 过 仿真 进行 了 验证 。 

Xu 等 [XU 08] 基于 模糊 逻辑 提出 在 数据 中 心中 优化 资源 分 配 的 控制 算法 ， 
同时 采用 不 同 负载 执行 虚拟 化 Web 服务 器 中 的 性 能 测试 。 一 个 学 习 系 统 馈 人 模糊 
控制 器 ， 描 述 在 不 同 负载 下 Web 服务 器 行为 。 

有 助 于 动态 资源 分 配 的 一 个 重要 工具 是 虚拟 机 迁移 ， 这 在 Sandpiper [ WOO 07] 
中 得 到 使 用 。 迁 移 原 语 支持 虚拟 机 从 一 台 物 理 服 务 器 迁移 到 另 一 台 物 理 服务 器 ， 这 
支持 防御 性 维护 和 能 量 节省 ， 是 通过 机 器 的 重新 组 织 和 关闭 欠 利 用 (underutilized) 
的 服务 器 得 到 的 。 不 过 ， 当 在 一 项 虚拟 服务 器 应 用 中 实施 虚拟 机 迁移 规程 时 ， 由 于 
当 机 器 处 于 悬挂 时 的 时 段 过 程 中 的 报 文 入 失 ， 该 迁移 规程 代表 一 项 巨大 挑战 。 
Wang 等 [WAN 07] 提出 没有 报 文 丢失 的 一 种 实况 迁移 机 制 ，Pisa 等 [PIS 10] 在 
Xen 架构 中 实现 了 这 项 建议 。 

在 Xen 平台 中 动态 资源 分 配 和 控制 是 一 项 挑战 ， 这 是 因为 输入 /输出 (1/0) 
虚拟 化 技术 仍然 是 原生 的 ， 没 有 隔离 ， 这 使 恶意 虚拟 路 由 器 可 影响 同一 台 物 理 路 由 
器 中 其 他 虚拟 路 由 器 的 性 能 。 因 此 ，XNetMon [FER 10a] 提出 一 种 路 由 流量 的 安 
全 控制 系统 ， 它 基于 数据 和 控制 平面 隔离 的 方法 ， 管 理由 虚拟 路 由 器 对 VO 资源 的 
使 用 情况 。 


Vol = 
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Keller 等 [KEL 09] 分 析 了 虚拟 化 环境 中 的 QoS 需求 ， 并 提出 一 个 授权 模型 来 
描述 和 保障 虚拟 路 由 器 中 的 SLA。 作 者 论证 了 授权 机 制 的 优势 ， 并 提出 两 种 主要 的 
实现 模型 。 第 一 种 模型 基于 网 络 参 数 监测 ， 而 第 二 种 基于 使 用 信任 平台 和 密码 学 密 
钥 ， 提 供 防 误 用 属性 。 

本 章 给 出 针对 虚拟 网 络 的 一 种 基于 SLA 的 动态 控制 器 。 这 种 控制 基于 路 由 器 
概要 的 生成 和 进一步 分 析 、SLA 违规 检测 和 不 当 行 为 虚拟 路 由 器 的 实时 惩罚 。 所 提 
供 系 统 监 测 与 每 个 虚拟 网 络 相关 联 的 负载 值 ， 并 产生 使 用 概要 的 实际 估计 。 这 些 概 
要 确保 降低 过 载 概率 的 资源 分 配 。 负 载 函 数 基 于 Sandpiper 建议 ， 但 也 包括 其 他 重 
要 参数 ， 如 系统 鲁 棒 性 、 运 算 处 理 器 温度 和 其 他 参数 (如 果 需 要 的 话 ， 可 以 添 
加 ) 。 所 提供 模糊 控制 系统 目标 是 提供 一 种 简便 的 加 权 参 数 配置 。 模 糊 逻 辑 映射 管 
理 员 战略 ， 并 监测 SLA 违规 的 路 由 器 。 此 外 ， 网 络 管理 员 可 容易 地 插入 新 的 规则 
和 动作 战略 。 所 提供 系统 支持 数据 /控制 平面 隔离 ， 并 作为 一 项 后 果 ， 是 完全 与 
XNetMon 兼容 的 。 

从 原型 得 到 的 结果 给 出 控制 系统 的 行为 、 所 产生 的 概要 和 战略 机 制 。 控 制 器 的 
执行 仅 消 耗 一 些 中 央 处 理 单元 (CPU) 周期 ， 这 支持 并 行 地 监测 许多 台 虚 拟 路 
由 器 。 


7.1.2 建议 的 模糊 控制 系统 


建议 的 模糊 控制 系统 监测 和 确保 虚拟 化 网 络 环境 中 的 SLA。 关 键 思 路 依赖 于 每 
个 虚拟 网 络 使 用 概要 的 生成 和 分 析 、SLA 违规 的 监测 和 不 当 行 为 虚拟 路 由 器 的 实时 
Eio SLA 违规 检测 技术 考虑 违规 的 严重 程度 ， 并 将 严重 程度 映射 到 一 个 惩罚 等 
级 ， 将 之 应 用 到 每 台 行 为 不 当 的 虚拟 路 由 器 。 系 统 负载 也 影响 惩罚 等 级 。 因 此 ， 路 
由 器 和 控制 域 的 全 局 状态 也 通过 使 用 一 个 模糊 控制 器 来 刻画 ， 其 中 当 计 算 系 统 负载 
时 ， 考 虑 了 处 理 器 、 内 存 、 网 络 和 重 棒 性 〈 存 在 元 余 性 和 防 失效 机 制 ) 。 依 据 控制 
天 的 输出 ， 动 态 地 修改 惩罚 战略 和 系统 对 违规 动作 的 容忍 度 ， 是 可 能 的 。 

所 建议 系统 是 由 控制 器 代理 组 成 的 一 个 分 布 式 管理 系统 。 每 个 代理 控制 一 个 物 
理 路 由 器 集合 及 其 关联 的 虚拟 路 由 器 ， 如 图 7. 1 所 示 。 每 台 物 理 路 由 器 有 一 个 控制 
域 ， 其 中 一 个 控制 和 监测 守护 进程 监测 物理 资源 的 分 配 ， 实 时 地 验证 SLA 的 符合 
性 ， 并 生成 每 台 虚 拟 路 由 器 的 使 用 概要 。 由 5 个 模块 组 成 控制 器 代理 。 战 略 和 策略 
模块 (SPM) 持 有 可 在 其 控制 下 物理 路 由 器 上 应 用 的 管理 战略 ， 并 更 新 可 应 用 在 每 
个 控制 和 监测 守护 进程 的 当前 战略 。 服 务 水 平 模块 (SLM) 保持 一 个 数据 库 ， 它 将 
SLA 与 每 台 虚 拟 路 由 需 关 联 。 知 识 库 模 块 存 储 历 史 、 使 用 概要 和 已 经 发 生 的 违规 的 
描述 。 这 个 模块 估计 未 来 网 络 迁 移 ， 检 测 更 新 的 需要 ， 也 协商 契约 ， 这 使 契约 适合 
每 台 虚 拟 路 由 器 的 真实 概要 。 执 行 器 模块 在 控制 和 监测 守护 进程 内 执行 ， 并 检索 每 
台 虚 拟 路 由 咒 的 概要 和 统计 信息 。 控 制 器 也 有 一 个 通信 模块 ， 支 持 通过 安全 信道 在 
其 他 控制 器 间 交 换 信 息 。 若 有 必要 ， 控 制 器 可 使 用 那些 信道 协商 执行 域 的 变化 ， 并 
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SPM 一 战略 和 策略 模块 执行 器 一 与 守护 进程 交互 
SLM 一 服务 水 平 模块 通信 一 代理 间 通 信 
KBM 一 知识 库 模 块 


图 7.1 控制 系统 架构 : 分 布 式 控制 器 代理 的 执行 器 模块 与 运行 在 
物理 路 由 器 上 的 监测 和 控制 守护 进程 交互 


所 述 系 统 有 三 个 主要 机 制 。 第 一 个 机 制 是 概要 生成 机 制 ， 它 提供 利用 率 统计 
言 息 和 ,SLA 违规 检测 。 这 个 信息 被 存储 在 KBM 中 ， 目 的 是 重新 协商 达成 契约 的 
SLA 中 的 可 能 的 误 配 置 。 第 二 个 机 制 是 系统 负载 估计 器 ， 它 给 出 组 合 多 个 资源 状 
SE [0,1] 区 间 内 一 个 估计 的 输出 。 第 三 个 机 制 是 自 适应 惩罚 机 制 。 基 于 系统 
负载 和 使 用 概要 ， 该 机 制 使 用 一 个 模糊 控制 器 ， 它 输出 一 个 惩罚 等 级 ， 正 比 于 系 
统 整个 状态 。 例 如 ， 如 果 系 统 给 出 一 个 低 的 负载 ， 则 一 个 中 等 违规 (如 超过 
20% 的 SLA) 生成 一 次 小 的 惩罚 (将 违规 SLA 机 器 的 资源 利用 率 降低 2% )。 另 
外 ， 如 果 系 统 过 载 ， 在 没有 可 用 资源 的 条 件 下 ， 即 使 一 个 小 的 违规 也 会 被 严厉 地 
惩罚 。 

1. 生成 路 由 器 概要 

每 台 虚 拟 路 由 器 的 使 用 概要 代表 每 台 虚 拟 路 由 器 的 资源 消耗 模式 。 使 用 各 概要 
检测 规则 违规 ， 估 计 资 源 消耗 ， 并 预测 未 来 需要 。 通 过 捕获 随时 间 变 化 的 内 存 、 处 
理 器 和 网 络 利用 率 ， 生 成 概要 ， 存 储 这 些 变量 的 最 近 过 去 和 长 远 过 去 的 行为 。 有 两 
个 不 同 尺寸 的 滑动 窗口 ， 存 储 这 两 个 关联 的 时 间 序 列 。 在 Sandpiper [WOO 07] 中 
使 用 基于 概率 密度 函数 的 概要 生成 方法 。 使 用 最 近 的 过 去 来 检查 SLA， 而 使 用 长 远 
的 过 去 来 预测 未 来 行为 和 估计 可 能 的 未 来 需求 。 采 用 概率 函数 分 析 各 行为 。 

执行 RIPv2 的 一 台 给 定 虚拟 路 由 器 ， 它 的 一 个 处 理 器 利用 率 的 概率 密度 函数 ， 
(PDF) 如 图 7. 2a 所 示 。 在 这 人 台 特 定 路 由 器 中 控制 和 数据 消息 的 交换 ， 在 长 远 过 去 
窗口 过 程 中 70% 的 测量 数据 ( 由 这 个 场景 的 过 去 200 个 测量 数据 组 成 ) 中 ， 这 产 
生 了 约 0.7% 的 CPU 处 理 咒 使 用 率 。 考 虑 到 这 个 PDF， 得 出 结论 ， 在 不 损失 性 能 的 
情况 下 ， 聚 合 具 有 类 似 资 源 模式 的 一 组 虚拟 路 由 器 ， 并 使 它们 共享 同一 物理 核 ， 是 
可 能 的 。 为 验证 SLA， 原 型 也 提供 累积 分 布 函数 (CDF)。 灵 活 的 SLA 是 可 能 的 ， 
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且 可 定义 (例如 ) 一 台 虚 拟 路 由 器 在 其 执行 时 间 的 最 大 80% 时 间 ， 可 使 用 一 项 给 
定 资源 的 高 达 0.7% 。 通 过 最 近 过 去 窗口 的 CDF， 则 可 确定 图 7.2b 中 的 路 由 器 将 
满足 给 定 的 SLA。 重 要 的 是 指出 ， 所 产生 的 分 布 可 被 应 用 到 来 自任 何 机 器 的 任何 路 
由 顺 。 给 出 的 例子 仅 说 明 可 得 到 哪 种 分 布 。 
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a) b) 


图 7.2 运行 RIPv2 的 一 台 虚 拟 路 由 器 的 处 理 器 利用 率 概 要 
a) 概率 密度 函数 (PDF) b) 累积 分 布 函数 (CDF) 


2. 战略 和 策略 模块 

SPM 存储 当前 发 挥 作 用 的 战略 ， 并 将 管理 决策 映射 到 动作 和 战略 。 使 用 模糊 
控制 器 [KEC 01 ] ， 由 于 其 处 理 决 策 问题 的 能 力 ， 它 给 出 不 确定 性 参数 和 定性 参 
数 ， 如 网 络 管理 员 或 管理 人 员 的 战略 。 在 模糊 逻辑 中 ， 如 前 所 述 ， 一 个 给 定 元 素 属 
于 一 个 给 定 集合 ， 依 据 的 是 在 区 间 [0, 1] 内 其 成 员 管理 等 级 ， 其 中 几 (x) : Xo 
[0,1] 定义 一 个 成 员 关 系 函数 。 采 用 带 有 Zadeh 的 [ZAD 00] AND 和 OR 算 子 的 
Mamdani 隐 性 方法 与 去 模糊 化 的 质心 方法 。 模 糊 控制 器 具有 小 的 计算 复杂 度 ， 并 可 
并 行 化 推理 过 程 ， 这 增强 了 系统 性 能 并 降低 了 控制 器 的 响应 时 间 。 

SPM 支持 不 同 的 作用 战略 。 每 个 战略 由 一 个 推理 规则 集 、 一 个 成 员 关 系 函 数 
集 [依据 网 络 管理 员 的 感知 (如 “高 处 理 器 利用 率 ” 和 “ 低 内 存 负载 " ) 来 映射 
输入 参数 ] 和 一 个 约束 输出 的 成 员 关 系 函 数组 成 。 有 两 种 战略 类 型 : 系统 负载 战 
略 和 惩罚 战略 。 在 第 5 部 分 “负载 策略 ”描述 这 两 种 方法 及 其 相关 的 战略 包 。 那 
些 战 略 形式 化 一 个 计算 行为 ， 它 反映 网 络 管理 员 的 意愿 和 战略 。 

3. 估计 系统 负载 

系统 负载 是 确定 被 管 资源 负载 水 平 的 一 个 测量 数据 。 诸 如 处 理 器 利用 率 、 内 
存 利用 率 、 网 络 利用 率 、 系 统 整体 温度 和 系统 鲁 棒 (指明 存在 磁盘 和 供电 的 元 
余 机 制 ) 等 多 个 参数 ， 可 被 分 析 来 刻画 系统 状态 。 定 义 成 员 函 数 集合 ues 
Eten > Hnes Mtemp 4H fron ， 这 与 模糊 化 变量 中 的 每 种 资源 关联 。 参 数 的 组 合 产生 一 
个 输出 ， 定 义 为 系统 负载 ， 被 限制 在 区 间 [0,1] 内 ， 它 定义 系统 的 负载 。 这 个 
值 被 用 作 另 一 个 控制 器 的 一 个 输入 参数 ， 与 delta 〈 是 契约 资源 和 资源 之 间 的 差 ) 
一 起 ， 来 估计 违反 SLA 的 路 由 器 的 惩罚 水 平 。 图 7. 3 给 出 代表 系统 负载 控制 器 





被 检测 系统 的 资源 和 参数 [SPM] [KBM] 
| 通信 | | 执行 器 | 
控制 器 代理 


图 7.3 战略 和 策略 模块 


汇聚 每 台 虚 拟 路 由 器 的 资源 使 用 情况 ， 产 生 控 制 器 的 输入 。 在 图 7.4 中 可 看 到 
评估 处 理 器 使 用 和 系统 温度 的 一 种 可 能 配置 的 例子 。 重 要 的 是 记 住 ， 依 据 每 名 管理 
员 的 需要 和 定性 想法 ， 可 修改 给 出 的 曲线 。 低 、 中 、 高 、 冷 、 温 和 热 是 成 员 函 数 。 
在 给 定 配置 中 ， 使 用 了 三 个 成 员 函 数 来 映射 每 种 资源 。 成 员 函 数 的 定义 代表 网 络 管 
理 员 定性 决策 的 映射 。 多 数 规则 可 被 定义 为 三 角 函 数 或 梯形 函数 。 例 如 ， 如 果 处 理 
器 使 用 较 高 ， 且 总 体系 统 温度 较 高 ， 那 么 系统 过 载 也 较 高 。 
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图 7.4 处 理 器 和 温度 利用 率 的 成 员 函 数 
a) 处 理 器 的 成 员 函 数 b) 温度 利用 率 的 成 员 函 数 


4. 基于 推理 规则 的 战略 

模糊 控制 器 战略 基于 模糊 系统 的 默认 模糊 推理 规则 。 这 些 规则 遵循 IF— THEN 
模式 ， 这 代表 当前 的 动作 战略 方案 。 定 义 为 战略 的 规则 集 被 称 作 一 个 战略 包 。 战 略 
包 的 一 个 例子 依据 契约 SLA 和 当前 资源 使 用 情况 的 差 (表示 为 delta) 与 系统 负载 
计算 惩罚 等 级 ， 这 可 从 表 7. 1 看 到 。 
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表 7.1 一 个 战略 包 一 部 分 (piece) 的 例子 
战略 包 





If delta (low) and load (low), then punishment (low) 

If delta (average) and load (low), then punishment ( low) 
If delta (high) and load (low), then punishment ( average ) 
If delta (low) and load (high), then punishment ( average) 
If delta (average) and load (high), then punishment ( high) 
If delta (high) and load (high), then punishment ( high) 


给 出 的 战略 包 对 应 于 一 个 网 络 管理 员 战 略 ， 它 建立 这 样 的 规则 ， 当 系统 轻 载 
时 ， 即 使 大 量 SLA 违规 也 不 被 严厉 地 惩罚 ， 原 因 是 系统 具有 丰富 的 资源 ， 且 此 刻 
将 额外 资源 赋予 违规 路 由 器 不 会 干扰 其 他 路 由 器 。 但 是 ， 当 系统 过 载 时 ， 网 络 管理 
员 是 比较 严格 的 ， 即 使 轻 的 违规 也 要 受到 严厉 惩罚 。 这 些 规则 与 成 员 函 数 一 起 工 
作 ， 成 员 函 数 也 可 由 网 络 管理 员 开发 。 新 的 规则 和 战略 被 方便 地 插入 ， 且 控制 器 代 
理 必须 将 战略 包 输 出 到 守护 进程 ， 守 护 进 程 必须 使 用 所 定义 的 战略 。 也 可 为 在 控制 
下 的 每 种 资源 建立 不 同 战略 ， 增 强 控制 器 的 灵活 性 。 

5. 负载 策略 

推理 规则 提供 表示 每 个 推理 规则 相关 等 级 的 模糊 值 ， 之 后 这 些 值 被 映射 到 单个 
控制 器 输 出 ， 它 是 区 间 [0,1] 中 的 一 个 值 ， 这 代表 当前 的 系统 负载 。 图 7. 5 给 出 
两 个 可 能 的 负载 策略 : 一 个 保守 的 负载 策略 和 一 个 大 胆 的 负载 策略 。 取 决 于 网 络 管 
理 员 概 要 ， 可 动态 地 改变 当前 的 域 策略 。 
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图 7.5 系统 收费 (charge) 策略 
a) 保守 策略 b) 大 胆 策略 


图 7.6 给 出 系统 的 决策 平面 ， 代 表 一 个 系统 负载 的 惩罚 等 级 和 delta, BI SLA 
违规 等 级 。 当 delta 较 高 且 系统 过 载 时 (图 7. 6a) ， 保 守 策 略 仅 严厉 地 惩罚 一 个 行 
为 不 当 的 虚拟 路 由 器 ， 而 即使 对 于 系统 负载 和 delta 的 较 小 正 的 变化 ,大 胆 的 策略 
也 产生 高 等 级 的 惩罚 (图 7.6b)。 














图 7.6 不 同 管理 战略 的 决策 表面 
a) 一 个 保守 策略 的 决策 表面 b) 一 个 大 胆 策略 的 决策 表面 


o. 控制 系统 过 载 和 SLA . 

开发 的 系统 生成 利用 率 概 要 ， 评 估 概 要 是 否 对 应 于 已 建立 的 SLA, 计算 系统 负 
载 的 一 个 估计 ， 并 惩罚 违反 所 提出 规则 的 虚拟 路 由 器 。 在 每 个 域内 执行 的 守护 进程 
实施 在 每 个 给 定 采 样 间隔 收集 的 参数 ， 采 样 间隔 可 由 网 络 管理 员 定 义 。 这 些 参数 被 
用 来 产生 代表 每 种 资源 利用 率 行为 的 时 间 序 列 以 及 统计 信息 和 分 布 ， 支 持 验证 概要 
和 与 SLA 的 符合 性 。 所 有 这 些 信息 被 发 送 到 负责 的 控制 器 代理 。 守 护 进 程 验证 每 
个 虚拟 路 由 器 概要 是 否 对 应 于 协商 过 的 SLA。 此 外 ， 它 汇聚 由 每 台 路 由 器 使 用 的 资 
源 ， 估 计 物 理 系 统 的 总 负载 。 如 果 一 台 路 由 器 违反 契约 ， 则 系统 产生 代表 delta 的 
一 个 值 。 之 后 系统 使 用 这 个 delta 值 和 系统 负载 来 确定 要 被 应 用 到 不 当 行为 路 由 器 
的 合适 惩罚 等 级 。 在 Xen 架构 中 ， 使 用 上 界 (cap) 控制 参数 。 上 界 约束 每 个 虚拟 
单元 可 使 用 的 CPU 周期 数 。 因 此 ， 改 变 上 界 值 ， 可 控制 虚拟 路 由 器 的 处 理 器 资源 
的 使 用 。 可 被 使 用 的 另外 一 个 控制 工具 是 流量 控制 (TC) ， 这 支持 队列 控制 ， 如 果 
虚拟 路 由 器 违反 SLA， 则 人 允许 对 每 台 虚 拟 路 由 器 的 吞吐 量 实施 管理 。 


7.1.3 结果 


开发 的 模糊 控制 系统 是 高 效 的 和 灵活 的 。 开 发 了 一 组 试验 ,证 明 由 所 提出 的 系 
统 引 入 的 效率 和 低 额 外 负担 。 在 一 台 物 理 机 器 上 实施 测试 ， 这 台 机 器 有 一 个 核心 
i7 860 处 理 器 ， 处 理 器 有 4 个 真实 核 和 8GB DDR3 随机 访问 内 存 (RAM ) 。 该 机 器 
配置 有 hypervisor Xen 4.0。 虚 拟 路 由 器 实例 化 有 128MB RAM 内 存 ， 可 访问 一 个 虚 
拟 核 。 虚 拟 路 由 器 和 控制 域 执 行 2. 6. 32-5- amd64 内 核 的 Debian Lenny Linux, 

控制 系统 的 设计 最 小 化 了 监测 和 控制 守护 进程 的 处 理 额外 负担 。 为 评估 守护 进 
程 的 处 理 需 额 外 负担 ， 实 例 化 了 一 些 虚拟 路 由 器 ， 并 依据 被 检测 虚拟 路 由 器 数 ， 测 
量 了 控制 域 的 平均 处 理 器 利用 率 。 图 7.7 的 结果 给 出 依据 被 监测 虚拟 路 由 器 数 ， 在 
控制 域 中 的 处 理 器 利用 率 。 在 这 个 配置 中 ， 在 每 秒 收集 并 评估 测量 结果 和 决策 。 图 
中 的 各 点 代表 每 个 配置 的 平均 处 理 器 利用 率 ， 置信 区 间 为 95%。 可 观察 到 ， 处 理 
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器 利用 率 和 被 监测 路 由 器 数 之 间 的 关系 近似 为 线性 的 ， 甚 至 在 守护 进程 同时 管理 8 
台 路 由 器 的 情形 中 ， 额 外 负载 也 是 可 接受 的 ， 且 达到 单 核 处 理 器 利用 率 的 40% 。 
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图 7.7 当 被 管理 虚拟 路 由 器 数 变化 时 控制 域 中 的 处 理 器 利用 率 


可 估计 ， 与 这 个 试验 中 所 使 用 相同 配置 的 一 个 控制 域 ， 通 过 仅 将 单个 核 专用 于 
这 项 任务 ， 就 可 同时 管理 多 达 20 个 虚拟 路 由 器 。 因 此 ， 系 统 给 出 不 错 的 性 能 ， 原 
因 是 它 同 时 监测 来 自 多 个 虚拟 路 由 器 的 多 个 变量 ， 且 那个 系统 正在 管理 每 台 虚 拟 路 
Far Ay SLA, 

第 二 个 试验 评估 控制 器 的 效率 和 惩罚 机 制 的 影响 。 选 择 虚拟 路 由 器 中 的 一 台 
由 器 。 这 人 台 被 选中 虚拟 路 由 器 的 SLA 定义 ， 为 执行 报 文 转发 ， 它 可 使 用 单 核 高 达 
85% 的 处 理 器 。 接 下 来 ,创建 要 被 这 台 路 由 器 转发 的 一 条 报 文 流 。 当 流 被 转发 时 ， 
路 由 器 违反 SLA， 且 控制 系统 通过 上 界 机 制 规范 处 理 器 利用 率 。 在 试验 中 ， 当 路 由 
髓 已 经 正在 违反 SLA 时 ， 激 活 惩罚 系统 。 

在 所 提出 的 场景 中 ， 定 义 三 个 背景 环境 。 在 第 一 个 环境 中 ， 有 一 台 被 监测 路 由 
器 和 一 台 没 有 使 用 资源 的 虚拟 路 由 器 。 所 以 ， 系 统 保持 低 的 负载 。 在 第 二 个 环境 
中 ， 有 被 监测 的 路 由 器 和 正在 消耗 中 等 量 资源 的 5 台 虚 拟 路 由 器 。 在 这 个 场景 中 ， 
负载 是 中 等 的 。 第 三 个 环节 有 被 监测 的 虚拟 路 由 器 和 7 个 额外 的 虚拟 路 由 器 ， 都 在 
使 用 几乎 所 有 可 用 的 资源 。 在 这 种 情形 中 ， 系 统 负载 被 刻画 为 高 负载 。 因 此 ， 场 景 
特征 由 低 、 中 和 高 负载 输出 。 得 到 这 些 值 ， 考 虑 到 系统 上 的 一 组 成 员 关 系 函数 和 推 
理 规则 。 在 每 种 配置 中 ， 取 决 于 背景 环境 ， 系 统 产 生 不 同 的 负载 输出 。 从 被 测 的 所 
有 环节 中 选择 三 个 特定 环境 ， 来 展示 对 每 种 可 能 的 系统 负载 输出 时 系统 的 不 同行 
为 。 图 7.8 中 给 出 的 结果 ， 展 示 出 系统 收敛 到 可 确保 路 由 器 SLA。 取 决 于 系统 的 负 
载 等 级 ， 惩 罚 等 级 是 变化 的 。 观 察 到 ， 在 低 负载 环境 中 ， 系 统 用 时 40s 达到 契约 
SLA。 当 存在 丰富 的 资源 时 ，SLA 违规 不 会 伤害 其 他 路 由 器 。 在 中 等 负载 场景 中 控 
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制 器 的 使 用 诱发 惩罚 等 级 的 提高 ， 结 果 ， 在 15s 内 资源 滥用 得 到 控制 。 在 高 负载 场 
景 中 ， 惩 罚 是 严厉 的 ， 系 统 在 5s 内 限制 资源 使 用 。 因 此 ， 所 提供 控制 器 是 高 效 的 ， 
并 满足 已 建立 的 需求 ， 在 低 负载 场景 中 以 一 种 保守 方式 起 作用 ， 在 关键 情况 下 以 大 
胆 果 断 的 方式 起 作用 。 





虚拟 路 由 器 的 处 理 器 的 利用 率 (%) 


已 建立 的 SLA 








"d 10 20 30 40 30 
时 间 /s 
图 7.8 不 同系 统 负载 下 的 系统 稳定 性 : 当 系 统 负载 为 高 负载 时 ， 
由 于 更 加 严厉 的 人 惩罚， 比较 快速 地 收敛 到 契约 SLA 


第 三 个 试验 评估 暂时 不 当 行为 的 控制 器 效率 ， 此 时 一 台 给 定 虚拟 路 由 器 在 一 个 
给 定时 长 违反 SLA， 之 后 它 开 始 遵守 契约 。 虚 拟 路 由 器 以 一 个 高 报 文 速率 转发 报 
文 ， 并 使 用 其 处 理 器 的 100% 。 在 60s 后 ， 路 由 器 以 一 个 较 低 速率 转发 报 文 ， 并 消 
耗 其 处 理 器 的 80% ， 不 再 违反 SLA。 在 这 个 结果 中 ， 系 统 负载 是 可 控制 的 ， 并 被 
分 类 为 中 等 负载 。 图 7. 9 表明 ， 在 没有 控制 器 的 条 件 下 ， 虚 拟 路 由 器 可 使 用 它 希望 






带 有 控制 器 


处 理 器 利用 率 (%) 














gel. - L 一 一- 一 一 一 — 
0 20 40 60 80 100 120 
时 间 /s 
图 7.9 一 台 虚 拟 路 由 器 的 处 理 器 利用 率 : 该 路 由 器 在 一 个 给 定时 长 
违反 一 条 SLA， 具 有 中 等 系统 负载 
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使 用 的 情况 ， 可 能 会 伤害 其 他 路 由 器 。 当 控制 器 起 作用 时 ， 虚 拟 路 由 器 受到 一 个 递 
减 的 上 界 约束 ， 直 到 虚拟 机 器 的 处 理 消耗 收 僵 ,符合 SLA 时 为 止 。 


7.2 局 部 信息 的 更 新 预测 机 制 


为 虚拟 网 络 系统 的 自治 管理 提出 一 种 异常 检测 ( ADAGA)， 为 在 虚拟 网 络 环境 
中 收集 和 分 析 数 据 提供 机 制 。ADAGA 管理 器 观测 网 络 中 的 被 监测 系统 ， 如 服务 器 
和 路 由 器 ， 无 论 物理 的 还 是 虚拟 的 。 所 提供 系统 的 主要 目标 是 发 送 告警 ， 报 告 网 络 
实体 发 生 的 可 能 异常 。 这 项 研究 将 一 次 异常 行为 刻画 为 观测 中 短期 的 变化 ， 它 与 过 
去 的 测量 数据 不 一 致 。 

考虑 到 序列 的 过 去 历史 ，ADAGA 使 用 时 间 序 列 预测 实际 值 ， 并 与 新 的 观测 值 
比较 。ADAGA 考虑 所 有 时 间 序 列 都 初始 化 为 0。 对 于 这 一 点 ， 每 个 序列 的 初始 值 
降低 它 的 所 有 观察 值 ， 这 人 允许 在 初始 化 过 程 中 的 零 误 差 ， 对 未 来 预测 的 初始 条 件 没 
有 影响 。 正 确 的 预测 器 初始 化 是 一 项 重要 的 配置 ， 原因 是 它 影响 整个 系统 的 性 能 
[ BRU 00], 

预测 器 分 析 基 于 当 预 测 需 参数 变化 时 的 假 阳 性 和 假 阴 性 值 。 这 个 报告 分 析 被 监 
测 系统 的 行为 ， 描 述 异 常 状况 ， 并 给 出 当 发 生 一 次 异常 状况 时 对 发 出 告警 的 影响 。 
各 试验 是 在 一 台 真 实 路 由 器 上 实施 的 ， 人 工 产生 异常 来 仿真 路 由 器 中 的 一 次 过 载 。 
结果 表明 ，ADAGA 系统 检测 到 给 出 平均 假 阳性 和 假 阴 性 率 的 异常 。 

7.2.1 节 讨 论 与 自治 管理 和 异常 检测 有 关 的 研究 。7. 2. 2 节 描 述 所 开发 的 系统 
及 其 模块 。7. 2. 3 节 给 出 试验 的 测试 场景 ， 是 采用 实现 的 原型 实施 测试 ， 并 得 到 结 
果 。 最 后 ，7. 3 节 做 出 结论 并 给 出 未 来 工作 的 方向 。 


7.2.1 异常 检测 系统 的 背景 


基于 异常 检测 的 虚拟 网 络 监测 和 管理 是 一 个 没有 很 好 描述 过 的 专题 。 异 常 检 测 
技术 普遍 用 于 安全 (如 入 侵 检测 系统 [PAT 07]) 中 ， 也 被 用 于 网 络 管理 的 自治 系 
统 ， 由 一 次 异常 检测 和 发 出 一 次 告警 来 触发 。 异 常 可 分 为 三 种 类 型 [BAROI]: 网 
络 操作 运行 中 的 异常 ， 由 网 络 设备 故障 或 配置 改变 组 成 ; 由 一 次 瞬 态 群集 导致 的 异 
常 ， 当 许多 用 户 同时 请 求 特定 位 置信 息 (如 一 个 操作 系统 新 版 本 或 一 个 病毒 视频 
的 分 发 ) 时 通常 发 生 这 种 异常 ; 由 网 络 滥用 导致 的 异常 (如 DoS 攻击 和 端口 扫 
描 )。 所 提出 的 系统 考虑 了 所 有 这 些 异 常 ， 原 因 是 这 些 对 自治 虚拟 网 络 管理 的 用 户 
满意 度 具 有 重大 影响 。 

Brutlag [BRU 00] 对 计算 机 网 络 中 的 异常 检测 使 用 时 间 序 列 和 预测 机 制 。 作 
者 将 焦点 放 在 分 析 由 一 台 路 由 器 产生 报警 的 网 络 流量 异常 。 给 出 预测 器 的 单 参数 配 
置 结果 ， 预 测 器 被 初始 化 为 零 ， 在 序列 中 没有 任何 数据 预 处 理 。 在 ADAGA 中 ， 为 
在 启动 时 得 到 零 误 差 ， 对 接收 到 的 数据 进行 预 处 理 。 此 外 ，ADAGA 和 Brutlag Ay A 
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统 之 间 的 主要 差异 是 多 维 分 析 ， 其 中 将 时 间 序 列 的 计算 应 用 到 不 同 网 络 特征 ， 如 内 
存 和 处 理 器 利用 率 、 网 络 流量 和 系统 负载 。 在 虚拟 化 场景 中 ， 由 于 低 的 网 络 隔离 ， 
不 仅 网 络 流 量 影响 网 络 性 能 ， 而 且 处 理 器 和 内 存 利用 率 也 影响 网 络 性 能 。 因 此 ， 在 
虚拟 化 场景 中 ， 所 有 这 些 被 监测 的 度量 元 都 是 重要 的 [FER 10b] 。 此 外 ， 网 络 管 
理 操作 (如 虚拟 机 迁移 ) 也 影响 网 络 设备 操作 [PIS 10]. 

De Lucena 和 Moura [DE 09] 分 析 网 络 流量 ， 焦 点 是 基于 报 文 流 的 观测 数据 。 
作者 以 一 个 4 元 组 (UR IP Hott, AAS IP 地 址 、 源 传输 端口 和 目的 传输 端口 ) 来 定 
义 流 。 流 方法 定义 各 种 类 型 的 异常 ， 如 DoS 、 配 置 失效 和 了 瞬 态 群集 。 在 ADAGA 系 
统 中 ， 各 流 不 是 以 常规 方式 归 组 的 。 该 系统 依据 服务 将 包 放 在 一 起 ， 因 为 目的 是 从 
网 络 功能 的 角度 来 管理 网 络 ， 考 虑 到 多 元 论 网 络 方法 认为 在 未 来 互联 网 中 每 项 服务 
一 个 虚拟 网 络 [MOR 09], Alt, Æ ADAGA 系统 中 ， 包 组 考虑 到 协议 号 和 目的 传 
输 端 口 ， 因 为 它们 是 定义 流 服务 的 报 文 特征 。 

与 异常 检测 有 关 的 几 项 工作 给 出 观测 间隔 量 级 单位 为 分 钟 或 数 十 分 钟 [ BRU 00, 
DE 09，SIL 10a，SIL 10b] ， 这 降低 了 处 理 和 存储 需求 。 但 是 ， 这 个 幅度 的 长 时 间 
间隔 不 支持 对 重要 异常 的 一 次 快速 响应 ， 这 种 异常 是 在 一 个 短 时 间 段 中 发 生 的 。 
ADAGA 系统 提供 观测 间隔 大 约 为 15s， 因 此 支持 对 异常 的 快速 检测 和 响应 。 采 用 
原型 实施 的 这 些 试验 ， 给 出 令 人 满意 的 结果 ， 因 为 收集 和 分 析 的 处 理 是 实时 完成 
的 ， 且 40 个 不 同 特征 的 分 析 采 用 一 个 Intel Core i7 950 处 理 器 需 时 10“s。 除 了 采 
样 间隔 外 ， 和 信 侵 检测 系统 的 另 一 项 重要 特征 是 报 文采 样 率 。 如 果 它 们 要 评估 所 有 报 
文 ， 则 每 报 文 处 理 系统 要 求 高 的 处 理 和 存储 负载 。 出 于 这 个 原因 ， 几 项 工作 实施 报 
文采 样 [SIL 10b, SOU 05, BAR 02 ] 。 不 过 ， 报 文采 样 在 观测 结果 上 引入 扭曲 、 
噪声 和 平滑 [BRA 06] 。 最 近 的 提议 解决 这 个 问题 的 方法 是 ， 通 过 对 可 能 是 异常 的 
报 文 做 标记 以 在 其 他 网 络 设备 中 进一步 分 析 [ALI 10] ， 或 通过 比 随机 采样 更 高 效 
的 过 滤器 [BRA 10]。 建 议 收集 流量 统计 而 不 是 报 文采 样 。 因 此 ， 以 较 小 的 处 理 额 
外 负担 考虑 所 有 报 文 。 

遵循 Dobson 等 [DOB 06] 描述 的 自治 管理 过 程 链 ， 即 收集 、 分 析 、 决 策 和 动 
E, 异常 检测 要 求 发 现 异 常 的 根源 。 从 网 络 的 最 新 观测 中 得 到 根源 [SIL 10a, 
PAR 10], ADAGA 没有 解决 发 现 异 常 的 根源 问题 ， 而 是 发 送 最 新 观测 数据 与 所 有 
收集 的 数据 ， 由 其 他 根源 发 现 机 制 进行 处 理 。 


7.2.2 ADAGA 系统 


ADAGA 系统 提供 在 一 个 虚拟 网 络 环境 中 收集 和 分 析 数 据 的 机 制 ， 并 支持 虚拟 
化 网 络 的 自治 管理 。 所 提出 系统 的 目标 是 检测 虚拟 网 络 上 的 异常 ， 同 时 激活 异常 修 
复 机 制 。 图 7. 10 给 出 ADAGA 的 架构 ， 以 及 各 模块 的 互联 关系 和 被 监测 系统 与 管 
理 器 间 的 通信 。 

本 节 定 义 在 任何 给 定时 刻 表 示 和 组 织 网 络 知识 的 一 个 本 体 。 网 络 管理 员 选 择 要 
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监测 管理 器 被 监测 的 系统 


时 间 序列 监测 接 
管理 器 收 控制 网 络 收集 


(接口 ) 


可 视 化 预测 机 制 UT 





FE] 7.10 ADAGA 系统 架构 


被 监测 的 有 关 特 征 ， 且 每 个 这 样 的 特征 都 被 组 织 为 一 个 时 间 序 列 ， 见 下 面 第 2 部 分 
所 定义 的 。 时 间 序 列 有 一 个 相关 联 的 预测 机 制 ， 如 下 面 第 3 部 分 所 述 ， 它 测量 在 这 
个 特征 当前 测量 与 过 去 的 偏差 ， 产 生 下 面 第 4 部 分 所 述 的 告警 。 虚 拟 化 模块 产生 预 
测 器 误差 的 时 间 序 列 图 形变 化 情况 ， 如 7. 2. 3 节 所 述 。 

l. 数据 收集 和 表示 

ADAGA 系统 通过 扩展 标记 语言 (XML) 格式 的 远程 数据 请 求 ， 从 网 络 设备 处 
收集 数据 。 监 测 管理 器 查询 被 监测 的 系统 ， 它 们 可 以 是 网 络 中 的 物理 单元 或 虚拟 单 
元 ， 如 图 7. 10 所 示 。 在 接收 到 请 求 时 ， 每 个 被 监测 的 系统 执行 监测 代理 ， 触 发 几 
个 专用 代理 ， 得 到 诸如 处 理 器 利用 率 、 内 存 利 用 率 和 网 络 状态 等 特定 数据 。 

在 一 个 被 监测 网 络 场景 [ZIV 05] 中 ， 观 测度 量 元 是 基础 性 的 。 原 型 通过 可 用 
的 Linux 操作 系统 工具 (是 ADAGA 中 使 用 的 基础 系统 ) 和 Xen [BAR 03]. (是 被 
选中 的 虚拟 化 平台 ) 工具 收集 观测 数据 。 图 7. 11 给 出 ADAGA 中 网 元 的 一 种 简化 
表示 结构 。 





图 7.11 ADAGA 系统 中 网 络 组 件 的 表示 结构 


各 网 元 的 建 模 考 虑 多 核 处 理 器 、RAM 机 制 ， 即 物理 内 存 和 虚拟 内 存 ， 以 及 几 
个 网 络 接口 。 网 络 设备 模型 包括 设备 的 识别 与 位 置 数据 以 及 与 不 同 处 理 器 的 连接 ， 
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内 存 和 网 络 接口 模型 。 每 个 特征 作为 独特 的 时 间 序 列 参与 到 异常 检测 。 在 ADACA 
系统 中 ， 为 每 个 特征 应 用 在 本 节 描 述 的 计算 。 我 们 宣称 ， 一 个 有 效 的 异常 检测 系统 
必须 能 够 通过 分 析 数 据 统计 信息 而 不 是 真实 收集 的 数据 ， 检 测 一 次 异常 。 除 了 避免 
与 数据 报 文 的 隐私 有 关 的 问题 外 ， 这 个 特征 支持 所 建议 系统 具有 更 有 效 的 处 理 和 
存储 。 

2. 时 间 序 列 

依据 Brockwell 和 Davis [BRO 02], ， 时 间 序 列 是 一 个 观测 s, 的 集合 ， 其 中 每 个 
观测 都 是 在 一 个 特定 时 刻 上 ez 实施 的 ， 其 中 了 是 测量 时 间 的 有 限 群 。 一 个 时 间 序 
列 和 一 个 常规 值 集合 的 区 别 是 ， 观 测 间 的 顺序 是 重要 的 。 考 虑 到 观测 过 程 ， 有 两 种 
类 型 的 时 间 序 列 。 在 离散 时 间 序 列 中 ， 观 测 具 有 确定 的 时 间 ， 且 是 在 特定 时 刻 实施 
的 。 在 连续 时 间 序 列 中 ， 观 测 是 在 一 个 时 间 间 隔 过 程 中 连续 实施 的 。 在 本 项 工作 
中 ， 使 用 离散 时 间 序 列 。 

已 观测 时 间 顺 序 定义 集合 7。 可 考虑 观测 之 间 的 采样 间隔 遵循 中 心 在 15s 的 泊 
松 分 布 。 依 据 Paxson [PAX 98 ] ， 一 个 固定 的 采样 间隔 可 导致 观测 中 的 扭曲 ， 因 为 
它 可 能 与 一 个 不 可 预测 的 事件 同步 ， 且 它 不 能 正确 地 观测 网 络 上 的 周期 性 行为 。 这 
些 问题 降低 检测 准确 度 或 隐藏 异常 。 

在 时 间 序 列 中 ， 在 任何 给 定 的 特定 时 刻 上， 基于 序列 的 过 去 (5. 5.0.5). 
可 预测 序列 的 下 一 个 值 s,,,。 依 据 这 个 预测 和 在 时 刻 1+1 处 观测 的 真实 值 ， 则 可 将 
预测 器 误差 定义 为 

e 2 1$, sa l Cn 2) 

如 果 这 些 误差 大 于 在 预测 中 确定 的 容忍 度 ， 则 ADAGA 和 触发 告警 生成 模块 ， 见 
下 面 第 4 部 分 所 述 。 

时 间 序 列 管理 模块 在 线 地 以 接收 到 的 观测 数据 馈 人 和 控制 时 间 序 列 。 这 个 模块 
定义 每 个 路 由 器 的 被 监测 特征 、 每 个 特征 的 预测 器 参数 和 特征 时 间 序 列 上 新 值 的 
插入 。 

3. 预测 机 制 

预测 机 制 确定 每 个 时 间 序 列 的 下 一 个 值 。 考 虑 到 两 种 预测 机 制 : 简单 的 和 被 很 
好 使 用 的 预测 器 ， 称 作 指 数 平滑 机 制 ， 以 及 Holt- Winters 季节 性 的 ( Holt- Winters 
seasonal) 机 制 ， 它 考虑 时 间 序 列 的 趋势 和 季节 性 成 分 。 指 数 平滑 预测 机 制 是 计算 
一 个 时 间 序 列 中 下 一 个 值 的 一 种 简单 的 算法 ， 它 基于 序列 历史 的 移动 平均 [BRU 00], 
为 计算 每 一 个 接 下 来 的 值 s,,, ， 表 示 为 当前 测量 值 s, 和 为 当前 值 计 算 的 预测 值 5, AY 
表达 式 为 

S, 7 a5, + (1 -a)s, (7.3) 
AH, ae [0, 1] MS 2s. 参数 wa 是 在 序列 历史 关系 中 当前 值 的 权重 。 因 此 ， 
a 的 值 越 大 ， 序 列 过 去 对 预测 值 计算 的 影响 就 越 小 。 依 据 De Lucena 和 Moura [DE 09] 
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的 分 析 ， 在 计算 机 网 络 场景 上 ， 参 数 a 的 合适 值 必须 小 于 0.1。 因 为 从 1=2 开始 实 
施 的 递归 ， 序 列 过 去 的 影响 随 着 时 间 而 降低 ， 遵 循 下 式 : 


t-2 
5, = | Xa -a)’s,,|+ (1 -a)' s, (7.4) 


因此 ， 图 7. 12 表明 ,除了 第 一 个 值 之 外 ， 每 个 过 去 观测 值 对 预测 计算 的 影响 
指数 性 地 降低 。 因 此 ， 初 始 条 件 强 烈 地 影响 结果 ， 如 图 7. 12a 所 示 。 因 此 ， 为 降低 
初始 条 件 对 预测 值 的 影响 ， 这 项 工作 对 序列 值 应 用 一 次 变换 ， 使 
V5,,5, 25, 一 31 (7.5) 
那么 ， 初 始 配置 将 是 % =0， 没 有 预测 误差 ， 如 图 7. 12b 所 示 。 
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E] 7.12 在 针对 传输 的 报 文 时 间 序 列 的 :=50 观测 的 预测 中 ， 过 去 观测 的 影响 
a) 收集 的 数据 b) 应 用 所 提出 的 变换 收集 数据 


指数 平滑 机 制 不 适合 呈现 周期 性 行为 ( 称 作 季节 性 ) 的 时 间 序 列 ， 因 为 它 假 
定 线性 序列 值 ， 并 以 序列 历史 的 移动 平均 逼近 下 一 个 值 。Holt- Winters 季节 性 机 制 
是 良好 地 适合 于 季节 性 时 间 序 列 的 一 个 预测 器 。Brutlag [BRU 00] 为 计算 机 网 络 
的 行为 定义 了 一 个 季节 性 模型 ， 在 早晨 时 段 比 在 夜晚 时 段 有 较 多 的 活动 。 
Holt- Winters 季节 性 机 制 将 时 间 序 列 分 解 为 趋势 、 季 节 性 和 噪声 。 这 些 成 分 中 
的 每 个 成 分 可 被 处 理 为 指数 平滑 方法 的 一 个 变化 。 有 两 种 方法 将 这 些 分 量 汇聚 成 一 
个 预测 值 : 加 性 的 和 乘 性 的 [KOL 99 ] 。 当 周期 的 统计 变化 不 依赖 于 序列 时 ， 这 些 
分 量 采 用 加 性 方法 汇聚 。 在 依赖 于 序列 时 ， 这 些 分 量 是 乘 性 的 。De Lucena 和 Moura 
[DE 09] 声称 ， 对 于 计算 机 网 络 ， 由 各 分 量 组 成 的 加 性 给 出 较 好 的 结果 ， 因 此 ， 
下 一 个 值 的 预测 是 
$i ER, +T, +P ain (7.6) 
式 中 ， 也 表示 时 间 序 列 的 趋势 ， P,,，, 是 周期 性 分 量 ; m 是 季节 性 周期 ; RAPD 
汇聚 噪声 。 
那么 ， 预 测 方程 给 定 为 
R, a(s, - P, ,) *(1-a)(R, , * T, )) Chad) 
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T, =B(R - R, ,) * (1 -B)T, , (7.8) 
P, 2y(s, - R) * (1-y)P,.,, (7.9) 
RF, a、B 和 ye[0,1] 表示 被 预测 值 每 个 分 量 的 平滑 常数 。 
类 似 于 指数 平滑 机 制 ， 这 些 参数 代表 被 预测 值 计 算 上 过 去 序列 的 权重 。 常 数值 
越 大 ， 则 过 去 分 量 对 预测 的 影响 就 越 小 。 
4. 告警 生成 
当 被 预测 误差 大 于 计算 得 到 的 可 接受 误差 时 ， 产 生 告警 。 为 每 个 新 收集 的 观 
测 ， 重 新 计算 可 接受 的 误差 ， 并 定义 为 
e, = dy, (7. 10) 
式 中 ,6 是 可 接受 误差 的 一 个 幅度 常数 ; 也 依 据 预 测 器 算法 加 以 定义 。 
Brutlag [BRU 00] 声称 , 6 的 最 优 值 属于 区 间 [2,3]. ADAGA 使 用 5 =2， 因 
为 提出 一 个 敏感 系统 ， 且 6 =2 产生 一 个 较 小 的 接受 误差 。 
对 于 指数 平滑 机 制 ， 考 虑 到 观测 窗口 和 下 一 个 值 预 测 ， 于 是 值 的 标准 差 。 对 
于 Holt- Winters 季节 性 机 制 ， 和 于 是 
P =y ls -$1) (0-73) 0E) (7.11) 
ADAGA 系统 提出 带 有 告警 累积 发 送 的 一 种 告警 控制 法 。 那 么 ， 为 清除 准时 的 
系统 告警 ， 并 不 发 送 所 有 产生 的 告警 。 在 ADAGA 中 这 种 方法 的 实现 ， 使 用 一 个 湾 
后 来 定义 所 产生 告警 的 发 送 。 如 果 系 统 在 观测 过 程 中 检测 一 次 异常 ， 这 个 告警 并 不 
立刻 发 送 。 仅 在 产生 n 次 告警 之 后 ， 发 送 一 次 告警 。7 的 值 是 由 网 络 管理 员 定 义 的 
计数 器 装 值 。 如 果 系 统 在 得 到 ?7 的 值 之 前 停止 检测 异常 ， 则 不 报告 异常 ， 且 告警 
累积 计数 器 设置 为 零 。 
发 出 一 次 告警 ， 意 味 着 将 一 个 报告 发 送 到 决策 系统 ， 并 作用 于 网 络 。 这 个 报告 
由 网 元 的 所 有 特征 的 一 组 最 近 15 次 观测 (产生 告警 )、 预 测 器 值 和 真实 观测 值 的 
信息 以 及 产生 告警 的 特征 组 成 。 


7.2.3 异常 系统 评估 


评估 ADAGA 系统 ， 确 定 它 检测 异常 的 容量 。 评 估 考 虑 到 假 阳性 和 假 阴性 率 。 
假 阳性 意味 着 被 错误 发 出 的 告警 因为 没有 异常 ) ， 而 假 阴性 由 不 产生 告警 的 异常 
时 刻 观测 所 刻画 ， 因 此 包括 在 告警 产生 滞后 时 段 过 程 中 累积 的 告警 。 

开发 了 一 个 原型 ， 以 图 7. 13 所 示 的 测试 床 场景 来 分 析 ADAGA 系统 。 监 测 管 
理 器 执行 时 间 序 列 管理 、 预 测 和 告警 产生 。 被 监测 系统 是 用 于 一 个 真实 网 络 中 的 一 
台 无 线 网 络 路 由 器 。 所 收集 的 信息 是 周期 性 的 ， 一 个 收集 间隔 后 跟 中 心 在 15s 的 泊 
松 分 布 [PAX 98]. 

在 大 约 2 天 的 监测 之 后 ， 两 个 节点 开始 使 用 安全 外 过 SSH) 协议 两 次 连续 地 
将 一 个 15GB 文件 上 传 到 路 由 器 ， 使 路 由 器 过 载 并 避免 远程 访问 。 目 标 是 导致 必须 
由 ADAGA 检测 的 一 次 异常 ， 结 果 是 发 送 告警 。 此 外 ， 评 估 每 个 特征 对 这 次 异常 检 
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监测 管理 器 MA 被 监测 系统 


文件 传输 
图 7.13 在 ADAGA 中 用 于 假 阳性 和 假 阴 性 分 析 的 测试 床 场景 








测 的 影响 。 和 预料 的 一 样 ， 网 络 特征 的 时 间 序 列 ， 如 接收 接口 中 的 网 络 流量 和 传输 
控制 协议 (TCP) 端口 22 处 的 流 ， 来 检测 异常 ， 而 其 他 特征 ( 如 运行 进程 数 和 内 
存 利用 率 ) 则 不 能 检测 异常 。 观 察 到 ， 当 系统 负载 变量 给 出 一 个 特别 行为 (如 大 
量 峰值 ) 时 ， 则 检测 到 一 次 异常 。 系 统 负载 受到 文件 传输 的 影响 ， 原 因 是 所 实施 
的 上 传 诱发 路 由 器 中 的 网 络 和 磁盘 L/O 负载 。 

下 面 介绍 结果 。 

SSH 服务 中 TCP 报 文 接收 的 观测 序列 如 图 7. 14 所 示 。 图 7. 14a 给 出 指数 平滑 
机 制 的 结果 ， 而 图 7. 14b 给 出 Holt- Winters 季节 性 机 制 的 结果 。 在 图 的 项 部 ， 有 真 
实 的 观测 (ER) 和 机 制 预测 的 值 (虚线) 。 由 这 个 图 观察 到 ， 指 数 平 滑 机 制 预测 
的 值 容易 遵循 真实 值 变化 趋势 ， 这 使 异常 检测 更 加 困难 ， 即 使 对 这 个 幅度 的 异常 的 
检测 也 是 如 此 。 不 同 的 是 ，Holt- Winters 季节 性 机 制 在 跟随 被 观测 值 方面 存在 更 大 
的 困难 ， 这 给 出 较 好 的 异常 检测 效率 。 当 一 个 预测 器 能 够 跟随 突然 的 改变 时 ， 它 将 
有 检测 异常 方面 的 低 效 率 ， 这 被 定义 为 突然 改变 。 图 的 底部 给 出 与 异常 检测 直接 发 
生 联 系 的 值 。 实 线 代表 机 制 的 预测 误差 【依据 式 (7.2) 得 到 ] ， 虚 线 给 出 可 接受 
的 预测 误差 [由 式 (7.10) 计算 得 到 ] 。 为 得 到 最 佳 的 可 视 化 效果 ， 各 图 仅 给 出 异 
常 发 生 时 的 时 间 区 间 。 

在 图 7. 15 中 ， 观 察 到 两 个 被 监测 特征 的 过 去 行为 。 图 7. 15a 中 在 每 次 数据 收 
集 之 前 Smin 内 被 监测 系统 的 平均 负载 ， 图 7. 15b 给 出 处 理 器 利用 率 的 百分数 。 由 
图 形 分 析 ， 观 察 到 特征 ( 如 系统 负载 ) 容易 受到 网 络 流量 异常 的 影响 。 这 个 影响 
确认 了 多 维 网 络 设备 监测 的 重要 性 。 不 同 特征 的 异常 信号 对 于 跟踪 异常 的 原因 是 有 
用 的 。 诸 如 处 理 器 利用 率 的 特征 没有 受到 所 产生 异常 的 影响 ， 如 图 7. 15b 所 示 。 

对 于 所 有 收集 的 观测 ， 当 没有 异常 时 ， 假 阳性 率 计算 发 出 的 告警 数 。 此 外 ， 假 
明 性 率 是 对 所 有 收集 的 观测 ， 在 异常 过 程 中 没有 发 出 的 告警 数 。 

和 预料 的 一 样 ， 相 比 于 指数 平滑 机 制 ，Holt- Winters 季节 性 机 制 给 出 较 好 的 结 
果 。 图 7. 16 给 出 变化 了 参数 时 ， 预 测 机 制 的 几 个 参数 配置 的 假 阳 性 和 假 阴 性 百 分 
E, n 代表 在 发 出 报告 之 前 累积 的 告警 量 。 在 a 等 于 0.05、0. 10 和 0.15 时 ,评估 
指数 平滑 机 制 。 对 Holt- Winter- 7 S MEALM A a, 8 fl 参数 ， 应 用 同样 的 值 ， 得 
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图 7.14 对 于 每 种 机 制 ， 在 SSH 服务 中 接收 的 TCP 报 文 的 时 间 变 化 趋势 
(观测 窗口 为 2000 FER, a, BA y 都 等 于 0.1) 
a) 指数 平滑 机 制 b) Holt- Winters 季节 性 机 制 


到 图 7. 16c 和 图 7. 16d 所 示 的 27 条 曲线 。 图 7. 16 中 所 有 图 形 都 是 对 由 2000 个 样 
本 组 成 的 一 个 观测 窗口 得 到 的 。 针 对 观测 窗口 的 其 他 尺寸 实施 的 测试 ， 给 出 被 诱发 
异常 检测 中 的 类 似 结果 。 

虽然 指数 平滑 机 制 给 出 图 7. 16a 所 示 低 的 假 阳性 率 ， 但 它 不 能 检测 良好 生成 的 异 
常 。 另 外 ， 对 于 所 有 被 评估 的 参数 配置 ，Holt- Winters 季节 性 机 制 给 出 一 个 不 错 的 效 
果 ， 即 假 阳 性 率 低 于 2. 5% ， 对 于 所 定义 的 告警 累积 合适 的 假 阴 性 率 。 在 异常 间隔 
中 ， 收 集 40 个 样本 。 表 7. 2 给 出 假 阳 性 率 ， 而 表 7. 3 给 出 Holt- Winters 季节 性 机 制 所 
有 被 评估 参数 配置 的 假 阴性 率 。 各 行 是 每 个 a 值 的 假 阳性 值 和 假 阴 性 值 ， 各 列 给 出 
依据 B 的 值 分 类 的 每 个 y 值 的 假 阳 性 和 假 阴 性 值 。 可 得 出 结论 ， 在 不 同 配置 的 结果 之 
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图 7.15 对 于 Holt- Winters 季节 性 机 制 ， 不 与 网 络 流量 直接 相关 的 两 个 特征 的 
时 间 变 化 趋势 (观测 窗口 为 2000 个 样本 ，a、B Fl y 都 等 于 0. 1) 
a) 在 每 次 观测 之 前 Smin 内 系统 的 平均 负载 b) 路 由 器 上 处 理 器 利用 率 的 百分数 


间 存在 较 大 的 相似 性 。 不 过 ， 对 于 较 小 的 8 值 ， 观 察 到 一 个 小 的 增益 。 参 数 有 与 序列 


趋势 有 关 。 因 此 ， 在 时 间 序 列 趋势 上 预测 器 接受 剧烈 变化 次 数 越 多 ， 即 对 较 大 的 B 
值 ， 则 预测 器 就 能 够 越 快 地 针对 异常 进行 调节 ， 结 果 ， 成 功率 就 越 小 。 


表 7.2 对 于 图 7. 16c 所 示 的 w、B 和 7 配置 以 及 m=0.5 时 假 阳性 率 的 比较 
(各 值 表示 为 百分比 ) 
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图 7.16 4E SSH 服务 中 接收 报 文 的 每 种 机 制 特征 的 分 析 ， 此 时 改变 
Za. BAM y (观测 窗口 尺寸 是 2000 个 样本 ) 
a) 指数 平滑 机 制 的 假 阳 性 率 b) 指数 平滑 机 制 的 假 阴性 率 
c) Holt- Winters 季节 性 机 制 的 假 阳 性 率 d). Holt- Winters 季节 性 机 制 的 假 阴性 率 


表 7.3 对 于 图 7. 16c 所 示 的 w、B 和 7 配置 以 及 m=0.5 时 假 阴 性 率 的 比较 
(各 值 表示 为 百分比 ) 
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7.3 小 结 


多 元 论 方法 由 专用 虚拟 网 络 组 成 ， 在 一 个 独特 的 硬件 (提供 不 同 QoS) E, 
供 不 同 的 专用 或 通用 被 隔离 的 虚拟 网 络 。 也 提出 一 个 引导 平面 ， 为 处 理 网 络 中 出 现 
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的 所 有 问题 (如 拥塞 、 故 障 和 QoS 提供) ， 必 须要 管理 和 控制 所 有 的 虚拟 网 络 。 引 
导 平 面 使 用 知识 平面 提供 的 信息 ， 自 治 地 执行 管理 和 控制 规程 。 管 理 和 控制 整个 网 
络 是 一 项 巨大 挑战 ， 我 们 声称 ， 共 置 视 图 解决 方案 有 助 于 这 些 活动 。 共 置 视图 是 受 
限于 其 邻居 关系 和 周边 环境 的 整个 网 络 的 一 个 部 分 视图 。 本 章 给 出 两 个 管理 和 控制 
系统 。 

提出 的 第 一 个 系统 基于 一 个 动态 资源 分 配 系统 的 开发 ， 它 分 析 虚 拟 路 由 器 的 资 
源 利用 率 概要 ， 并 基于 QoS 度量 元 和 SLA 协议 提供 资源 的 公平 共享 。 为 虚拟 化 网 
络 环境 的 SLA 控制 ， 开 发 了 一 个 高 效 的 模糊 控制 器 ， 其 中 隔离 特权 表示 一 项 巨大 
挑战 。 得 到 的 结果 表明 ， 所 提出 的 系统 是 高 效 的 ， 为 比较 适合 网 络 资源 控制 。 网 络 
管理 员 可 容易 地 插入 反映 其 个 人 和 定性 决策 战略 的 规则 。 得 到 的 结果 表明 ， 通 过 惩 
罚 违反 规则 的 不 当 行 为 路 由 器 ， 系 统 高 效 地 控制 SLA。 此 外 ， 惩 罚 等 级 取决 于 系统 
负载 和 隔离 等 级 。 在 试验 中 ， 系 统 成 功 地 以 自 适 应 方式 限制 SLA。 当 网 络 处 在 有 充 
足 空闲 资源 的 一 个 状态 时 ， 系 统 应 用 轻微 惩罚 ， 在 关键 时 刻 ， 系 统 应 用 严厉 惩罚 。 
结果 也 表明 ， 控 制 器 在 5s 内 调节 资源 使 用 。 在 一 个 低 负载 条 件 下 ， 系 统 在 40s 内 
收敛 。 此 外 ， 监 测 和 管理 在 控制 域内 仅 产 生 小 的 额外 负担 ， 这 对 应 于 每 个 被 管 虚拟 
路 由 器 单个 处 理 器 的 5% 。 

提出 的 第 二 个 系统 将 焦点 放 在 监测 和 预测 技术 上 ， 它 监测 环境 ， 为 知识 平面 提 
供 合适 的 和 最 新 的 信息 ， 也 监测 路 由 器 不 当 行 为 。 开 发 了 ADAGA MBAR, EM 
虚拟 网 络 收集 和 分 析 数 据 。ADAGA 的 主要 优势 是 多 维 监测 、 低 的 监测 间隔 (提供 
低 的 响应 时 间 ) 和 避免 每 报 文 处 理 战 略 。 通 过 考虑 计数 器 和 统计 量 而 不 是 数据 报 
文 ， 所 提出 的 系统 考虑 时 间 序 列 并 最 小 化 额外 负担 。 结 果 表 明 ， 指 数 平滑 机 制 不 适 
合计 算 机 网 络 预测 ， 因 为 这 些 网 络 呈 现 出 季节 性 变化 。 假 阳性 和 假 阴 性 结果 表明 ， 
Holt- Winters 季节 性 机 制 是 高 效 的 ， 因 为 它 以 低 的 假 阳性 率 和 假 阴 性 率 检测 网 络 
异常 。 

本 章 中 给 出 的 这 两 个 系统 帮助 用 户 和 代理 管理 和 控制 虚拟 网 络 ， 同 时 感知 更 新 
的 需求 。 第 一 种 系统 方法 监测 和 管理 资源 利用 率 概要 和 SLA ， 维 持 网 络 中 的 QoS 并 
估计 SLA 更 新 的 需要 ， 以 便 得 到 每 个 虚拟 路 由 器 的 需求 。 通 过 产生 资源 利用 率 概 
要 ， 则 监测 违规 和 保障 SLA 约束 条 件 就 是 可 能 的 。 第 二 种 系统 监测 几 个 参数 及 其 
使 用 ， 并 预测 未 来 行为 ， 检 测 可 能 的 变化 ， 之 后 触发 告警 ， 强 制 系统 在 知识 平面 中 
保持 信息 被 刷新 。 
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第 8 章 系统 架构 设计 


未 来 互联 网 应 该 同时 支持 多 个 网 络 ， 每 个 网 络 都 有 其 自己 的 协议 栈 和 管理 方 
案 ， 这 要 确保 网 络 核心 的 巨大 灵活 性 。 据 此 ， 本 章 描 述 支 持 创建 一 个 可 编程 网 络 核 
心 的 一 种 架构 。 目 标 是 使 用 当前 的 虚拟 化 技术 来 设计 虚拟 化 基础 设施 。 对 此 ， 使 用 
三 种 不 同 技术 : Xen hypervisor, OpenFlow 交换 机 架构 和 这 二 者 的 一 个 组 合体 ， 它 
集成 采用 机 器 和 网 络 虚 拟 化 技术 。 

Xen 和 OpenFlow 平台 的 使 用 利用 到 这 两 个 机 器 和 网 络 虚拟 化 平台 的 优势 。 
OpenFlow 网 络 为 在 没有 报 文 丢失 的 流 迁 移 和 虚拟 网 络 重新 映射 ， 提 供 广 泛 的 支持 ， 
而 Xen 提供 比较 灵活 的 报 文 处 理 〈 由 于 使 用 虚拟 机 ) 。 思 路 是 使 用 OpenFlow 管理 
流 ， 使 用 Xen 提供 对 网 络 和 路 由 报 文 的 控制 。 这 样 一 种 方法 称 作 XenFlow ， 且 它 得 
到 一 个 灵活 的 和 完备 的 网 络 管理 工具 集 。 

本 章 给 出 所 开发 模块 的 一 个 一 般 视图 ， 支 持 一 致 原型 的 创建 ， 这 有 利于 新 网 络 
地 址 特定 问题 的 开发 ， 如 移动 性 、 安 全 性 和 服务 质量 (QoS) 提供 。 在 本 章 中 定义 
了 Xen 和 OpenFlow 平台 中 开发 工具 的 集成 ， 以 及 所 设计 模块 如 何以 一 种 高 效 方式 
相互 交互 。 

此 外 ， 本 章 确定 了 设计 基于 策略 的 架构 的 引导 系统 和 服务 控制 需求 。 具 体 而 
言 ， 它 为 后 P 网 络 开发 一 个 网 络 管理 框架 ， 为 组 成 具有 自 管理 能 力 的 一 个 全 局 网 
络 ， 该 架构 将 每 个 网 元 关联 起 来 并 对 其 优化 。 本 章 也 在 虚拟 化 基层 内 定义 一 个 薄 的 
管理 层 ， 该 基层 是 自治 的 ， 能 够 支持 自 适应 监测 的 共 置 感知 、 学 习 、 推 理 和 检测 故 
障 ， 以 便 提供 对 系统 的 自我 属性 。 除 此 之 外 ， 介 绍 了 一 个 引导 系统 ， 并 讨论 独立 自 
我 控制 功能 的 集成 。 

虚拟 网 络 管理 的 分 布 式 架构 和 引导 系统 原型 支持 网 络 基层 ， 进 行 自我 管理 虚拟 
网 络 。 网 元 的 自治 管理 器 具有 监测 、 分 析 、 规 划 和 执行 的 一 个 封闭 的 控制 环 ) 针对 环 
路 的 下 一 次 迭代 ， 这 样 一 个 环 路 将 信息 馈 和 知识 库 。 用 来 测试 这 个 概念 ， 测 试 床 由 作 
为 物理 网 络 基 础 设施 之 上 的 路 由 器 的 虚拟 机 组 成 。 也 使 用 基于 Ginkgo 平台 的 一 个 多 
代理 系统 ， 开 发 了 所 提供 架构 的 一 个 原型 。 测 试 场景 将 焦点 放 在 虚拟 网 络 的 自 愈 方 
面 ， 但 虚拟 网 络 自 我 管理 的 分 布 式 架构 是 足够 通用 的 ， 则 它 可 被 用 作 自 治 计算 中 的 其 
他 功能 ， 如 自我 配置 、 自 我 优化 和 自我 保护 。 给 出 一 些 试验 ， 给 出 恢复 进程 的 性 能 。 

本 章 组 织 如 下 。8. 1 节 给 出 Xen 和 OpenFlow 平台 的 总 体 架 构 视 图 。 它 给 出 所 
提供 算法 如 何 相互 交互 的 详细 视图 以 及 虚拟 化 管理 工具 如 何 使 用 控制 算法 。 也 讨论 
了 辅助 功能 ， 如 平面 隔离 和 安全 通信 。8. 2 节 给 出 XenFlow 架构 设计 ， 这 是 组 合 
Xen 和 OpenFlow 虚拟 化 平台 的 一 个 混合 架构 ;也 给 出 这 个 新 平台 主要 特征 的 性 能 
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分 析 。 最 后 ，8. 3 节 给 出 本 章 的 结论 。 
8.1 整体 架构 设计 


本 节 给 出 使 用 Xen 和 OpenFlow 虚拟 化 平台 所 开发 原型 的 架构 。 给 出 哪些 算法 
与 每 个 平台 相关 以 及 工具 如 何 交 互 。 在 本 节 中 也 描述 了 一 些 模块 ， 是 设计 用 来 构造 
一 个 一 致 的 工具 集 的 。 


8.1.1 Xen 架构 


在 网 络 虚 拟 化 方面 ， 为 不 同 网 络 服务 、 不 同 虚拟 路 由 器 同时 共享 一 个 物理 路 由 
髓 。 这 个 范 型 的 主要 特征 是 报 文 转发 上 的 隔离 和 性 能 。 隔 离 确 保 独 立 的 虚拟 网 络 操 
作 ， 在 期 望 虚拟 网 络 操作 中 防止 恶意 的 或 故障 的 虚拟 路 由 器 干扰 。Xen [FER 11] 
是 可 被 用 来 在 商用 计算 机 中 构造 虚拟 路 由 器 的 一 个 虚拟 化 平台 ， 每 个 路 由 器 都 有 其 
自己 的 操作 系统 和 协议 栈 。 但 是 ，Xen 平台 没有 提供 完备 的 隔离 ， 也 给 出 处 理 网 络 
输入 /输出 (0) 操作 上 的 低 性 能 [EGI 07], 

为 在 虚拟 网 络 所 使 用 的 每 个 物理 节点 提供 监测 和 确保 隔离 、 安 全 和 高 性 能 ， 给 
出 一 个 架构 设计 〈 见 图 8. 1 和 图 8.2)。 图 8.1 给 出 Xen 虚拟 网 络 所 提供 架构 中 的 
实体 关系 ， 而 图 8. 2 给 出 每 个 物理 节点 的 软件 架构 。 为 在 不 干扰 其 他 服务 的 情况 下 
确保 一 个 工具 的 方便 升级 ， 对 采用 一 个 模块 化 架构 做 出 决策 。 此 外 ， 向 所 建议 模型 
添加 新 特征 是 容易 的 ， 原 因 是 所 开发 模块 的 基础 是 用 于 基于 Xen 的 测试 床 工 具 
(VNEXT) 的 虚拟 网 络 管理 [PIS 11] ， 该 工具 聚集 了 所 有 建议 的 控制 模块 。 


调用 全 局 管理 功能 
基础 设施 管理 员 使 用 VNEXT 和 VNEXT 模 块 
管理 网 络 的 图 形 工具 






虚拟 机 服务 器 


每 个 物理 节点 中 的 虚拟 路 
由 器 和 一 个 VNEXT 模 块 


图 8.1 使 用 Xen 平台 的 Horizon 架构 设计 
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图 8.2 使 用 Xen 平 台 的 一 个 物理 节点 : 域 0 中 的 VNEXT 服务 器 和 
域 U 中 的 VNEXT 客户 端 


结构 架构 是 基于 一 个 客户 端 一 服务 器 模型 的 ， 其 中 虚拟 机 是 位 于 域 0 (dom0 ) 
中 的 一 台 服 务 器 。 可 用 服务 是 可 选择 的 ， 并 可 依据 管理 员 要 求 加 以 选择 。 此 外 ， 一 
些 服务 仅 运 行 在 dom0 内 ， 且 不 干扰 虚拟 机 中 的 其 他 服务 。 

原型 中 使 用 的 多 数 客户 端 一 服务 器 功能 是 基于 平面 隔离 范 型 [ WAN 08] 的 ， 
其 中 数据 转发 和 控制 机 制 是 解 看 的 。 因 此 ， 诸 如 路 由 的 控制 是 在 虚拟 机 [用户 域 
(domU)] 中 完成 的 ， 确 保 控制 机 制 设计 中 的 灵活 性 ， 而 报 文 转发 是 在 称 作 dom0 
的 一 个 特权 域 中 实施 的 ， 提 供 准 原生 性 能 。 平 面 隔离 的 主要 优势 是 提供 准 原生 报 文 
peta 但 是 ， 一 个 缺陷 是 这 样 的 事实 ， 即 基础 设施 管理 器 为 所 有 虚拟 机 实施 一 

共同 的 转发 平面 。 相 反 ， 为 虚拟 网 络 运营 商 提供 使 用 或 不 使 用 平面 隔离 范 型 的 选 
s. 平面 隔离 范 型 负责 在 domO 中 创建 虚拟 机 转发 表 的 一 个 有 效 考虑 。QoS 运营 商 
横 块 在 dom0 内 创建 虚拟 机 转发 规则 (如 排队 规律 和 过 滤 规 则 ) 的 一 个 备份 。 因 
此 ， 这 些 模块 完成 从 虚拟 机 到 domO 的 数据 平面 传递 。 这 两 个 模块 使 用 安全 的 信道 
模块 ， 确 保 domU 和 domO 之 间 的 安全 通信 。 

监测 模块 也 基于 一 个 客户 端 一 服务 器 模型 ， 并 为 dom0 和 每 个 虚拟 机 提供 一 个 
监测 数据 集 。 除 此 之 外 ， 也 描述 了 迁移 [PIS 10] 、 拓 扑 发 现 和 虚拟 网 络 配置 模块 。 
所 有 这 些 模块 组 成 控制 网 络 虚 拟 化 的 基本 工具 集 9。 


O  VNEXT 工具 发 展 成 为 带 有 安全 性 的 未 来 互联 网 测试 床 (FITS) ， 可 在 http://www. gta. ufrj. br/fits 处 得 到 。 
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虚拟 网 络 系统 自治 管理 的 异常 管理 (ADAGA) 模块 检测 物理 节点 和 虚拟 节点 
中 的 异常 。ADAGA 与 监测 模块 交互 ， 得 到 有 关 domUs 和 dom0 的 数据 ， 并 为 创建 
监测 虚拟 网 络 的 过 滤 规 则 而 实施 动作 。 

架构 的 主要 模块 是 资源 管理 ， 它 动态 地 控制 到 虚拟 机 的 资源 分 配 。 开 发 了 三 个 
模块 【最 大 使 用 控制 器 /高 效 使 用 控制 器 (MUC/EUC), Xen 吞吐 量 控制 (XTC) 
和 模糊 控制 器 ] ， 也 构造 了 一 个 接纳 控制 器 模块 ， 它 与 资源 管理 器 并 行 运 行 ， 评 估 
新 的 虚拟 网 络 是 否 能 够 寄居 在 同一 物理 节点 中 。 这 个 模块 为 全 局 虚拟 网 络 分 配 功能 
提供 支持 。 

为 提供 QoS， 向 节点 架构 添加 两 个 不 同 模块 : QoS 运营 商 和 QoS 提供 商 。QoS 
运营 商 支 持 虚拟 网 络 运 营 商 设置 QoS 参数 ， 而 不 管 是 否 使 用 平面 隔离 。QoS 提供 商 
区 分 由 每 个 虚拟 网 络 提供 的 服务 ， 支 持 基 础 设施 管理 员 为 每 个 虚拟 网 络 设置 不 同 特 
权 。 这 些 模块 有 利于 QoS 支持 的 开发 ，QoS 支持 是 互联 网 当前 需求 之 一 。 

下 面 提供 每 个 模块 的 描述 ， 特 别 是 接纳 控制 器 和 QoS 模块 以 及 它们 如 何 相 互 
交互 的 描述 。 

1. 资源 管理 器 

原型 假定 至 多 使 用 三 个 资源 管理 器 ， 这 取决 于 基础 设施 管理 员 和 希望 监测 的 资 
源 。 每 个 管理 器 定义 一 个 不 同 的 策略 ， 并 控制 虚拟 化 系统 中 的 一 个 不 同 参数 。 

第 一 个 资源 管理 器 模块 依据 被 选中 的 控制 器 ， 选 择 一 个 资源 策略 。 有 两 个 选 
项 : MUC [FER 11a] 和 EUC。MUC 为 每 个 domU 预 留 最 小 量 的 资源 ， 并 在 所 有 
domUs 间 共 享 剩 余 的 资源 。 对 虚拟 网 络 没有 资源 使 用 上 界 。 因 此 ， 这 项 策略 允许 一 
个 虚拟 网 络 使 用 比 服务 水 平 协议 (SLA) 中 规范 的 那些 资源 要 多 的 资源 。 剩 余 资源 
的 共享 是 基础 设施 管理 员 设 置 的 一 个 参数 值 的 一 个 函数 ， 以 便 区 分 虚拟 网 络 - EUC 
规定 一 个 最 小 资源 预 留 率 和 在 一 个 长 时 间 区 间 中 向 每 个 虚拟 网 络 提供 的 最 大 资源 
量 。 依 据 预 留 参数 和 网 络 需 求 ， 控 制 器 动态 地 调节 每 个 虚拟 网 络 的 预 留 参数 。 因 
此 ，EUC 规范 每 个 虚拟 网 络 可 使 用 的 最 大 资源 量 ， 提 供 一 个 更 准确 的 资源 预 留 方 
3€ (由 MUC 提供 的 ) MUC FI EUC 与 监测 模块 相关 ， 后 者 提供 实施 资源 分 配 控制 
所 需 的 信息 。 资 源 管理 器 也 与 虚拟 网 络 配置 交互 ， 以 便 得 到 和 修改 虚拟 网 络 资源 分 
配 参数 。 虚 拟 网 络 配置 模块 最 初 由 VNEXT 虚拟 机 服务 器 (VMS) 设置 ，VMS 在 网 
络 创建 或 每 个 物理 节点 管理 过 程 中 输出 由 基础 设施 提供 商 选 择 的 参数 ， 这 确保 控制 
器 模块 中 的 一 个 准确 行为 。 

通过 使 用 一 个 图 形 界面 ，VMS 使 基础 设施 管理 员 可 设置 MUC 或 EUC 的 资源 参 
数 到 每 个 虚拟 节点 。 默 认 配 置 为 所 有 节点 假定 相同 参数 ， 但 它 也 支持 每 节点 配置 。 

第 二 个 资源 管理 器 模块 是 XTC [COU 11]. XTC 是 控制 一 台 虚 拟 机 转发 报 文 比 
特 率 的 一 种 机 制 ， 这 将 降低 它 对 dom0 的 影响 。 实 际 上 ， 为 增加 或 降低 虚拟 网 络 的 
报 文 转发 速率 ，XTC 动态 地 调节 Xen 调度 器 参数 ， 赋 予 每 个 虚拟 网 络 或 多 或 少 的 
中 央 处 理 单元 (CPU) 时 间 。 因 为 XTC 限制 一 台 虚 拟 路 由 器 发 送 的 比特 率 ， 所 以 
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仅 当 不 使 用 VNEXT 架构 的 平面 隔离 时 ，XTC 才 是 有 效 的 。 像 所 有 VNEXT 模块 一 
FÉ, di XTC 实施 的 动作 是 由 VMS 执行 的 。 为 做 到 这 一 点 ， 每 台 物 理 机 器 执行 称 作 
XTC 管理 器 的 一 个 守护 进程 ， 它 由 传输 控制 协议 (TCP) 套 接 字 连接 到 VMS. A 
此 ， 通 过 与 XTC 管理 器 交换 消息 ，VMS 负责 接收 用 户 的 请 求 并 采取 合适 的 动作 。 
通过 使 用 VNEXT 的 图 形 用户 界 面 (GUI) ， 完成 由 VMS 实施 的 XTC 动作 。 通 过 
VMS 发 出 请 求 ， 这 个 模块 提供 到 XTC 的 一 个 用 户 友好 的 界面 。 

第 三 个 资源 管理 器 是 一 个 模糊 逻辑 控制 器 [CAR 12] 。 这 个 控制 器 将 一 项 互补 
功能 提供 给 EUC 和 MUC， 使 基础 设施 提供 在 控制 dom0 中 共享 CPU、 内 存 和 带宽 
外 的 其 他 参数 ， 如 对 失效 的 鲁 棒 性 和 机 器 温度 。 思 路 是 在 虚拟 网 络 环境 中 提供 SLA 
的 一 种 高 效 控制 系统 。 所 提出 的 系统 验证 物理 资源 使 用 、 检 索 虚拟 路 由 器 的 实时 概 
要 并 确保 SLA 需求 (得 到 满足 ) 。 控 制 是 基于 模糊 逻辑 的 ， 且 它 依据 系统 过 载 和 路 
由 器 概要 ， 确 定 资源 分 配 。 控 制 逻辑 您 罚 超 过 已 建立 SLA 的 虚拟 网 络 。 

这 个 控制 器 也 使 用 监测 模块 ， 并 产生 概要 [表示 为 直方 图 (histograms)], € 
包含 有 关 的 系统 信息 。 

2. 虚拟 路 由 器 的 接纳 控制 

虚拟 网 络 接纳 控制 器 仲裁 新 虚拟 路 由 器 到 物理 机 器 的 访问 。 寄 居于 任何 物理 机 
器 中 的 虚拟 路 由 器 数 ， 影 响 处理 预 留 的 长 期 容量 。 实 际 上 ，EUC 定义 两 种 资源 预 
留 方案 : 

1) 短期 速率 预 留 CR [En] ) 。 这 是 在 短期 和 内 虚拟 网 络 n 必须 要 满足 的 资源 预 
留 速率 。 

2) 长 期 预 留 体 量 (Vi[n] )。 这 是 在 长 期 时 段 1, 过 程 中 应 该 得 到 保障 的 资源 总 
量 V[n]=R, [n]: h, HEPR [n] 是 针对 虚拟 网 络 n 的 长 期 平均 速率 体 量 预 贸 
请 求 。 

实际 上 ， 接 纳 控 制 机 制 不 是 那么 简单 的 ， 因 为 不 同 请 求 可 能 请 求 同 样 的 长 期 资 
源 。 在 一 项 虚拟 网 络 服务 请 求 (要 被 拒绝 的 ， 目 的 是 防止 过 载 物理 资源 ) 的 概率 
计算 中 应 该 考虑 需求 概要 ， 该 概要 包括 静态 信息 ( 如 磁盘 和 内 存 尺寸 ) 和 动态 信 
息 〈 如 吞吐 量 和 CPU 消耗 ) 。 因 此 ， 所 提出 的 接纳 控制 存储 表示 物理 基层 资源 使 用 
情况 的 一 个 直方 图 集合 [FER 12 ] 。 在 一 个 监测 时 段 结束 处 ， 为 每 项 资源 产生 一 个 
新 的 直方 图 。 同 一 资源 的 直方 图 集合 对 一 个 时 段 (如 一 天 ) 的 负载 变化 进行 建 模 。 
直方 图 代表 虚拟 网 络 的 聚集 资源 使 用 情况 。 具 有 不 同 流量 概要 的 网 络 ， 得 到 不 同 的 
聚集 资源 直方 图 ， 即 使 所 有 虚拟 网 络 的 短期 和 长 期 预 留 都 相同 也 是 这 样 的 。 两 个 网 
络 可 给 出 相同 的 V 和 R.， 并 给 出 完全 不 同 的 行为 ， 这 意味 着 不 同 的 聚集 资源 需求 。 

一 个 监测 时 段 被 定义 为 Km“ LR, HER Ki 是 由 基础 设施 管理 员 选 择 的 一 个 
任意 常数 。 为 避免 存储 和 处 理 过 载 ， 所 提出 的 系统 随机 地 选择 K,,,， 这 是 在 Ki 个 
长 时 段 之 后 不 被 评估 的 长 时 段 数 。 此 外 ， 接 纳 控制 器 并 不 存储 所 有 的 直方 图 ， 相 反 
它 检查 当前 直方 图 和 上 一 直方 图 之 间 的 差异 。 为 做 到 这 一 点 ， 接 纳 控制 器 将 两 个 直 
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方 图 做 归 一 化 处 理 ， 并 计算 这 两 个 直方 图 之 间 y 轴 中 的 最 大 误差 (e, ) 。 如 果 条 件 
je | > Ei 成 立 ， 那 么 存储 当前 概要 ， 并 开始 一 个 新 的 直方 图 。 

在 一 个 新 的 虚拟 网 络 加 入 物理 基层 之 后 ， 控 制 器 算法 估计 阻塞 概率 。 这 个 估计 
得 到 的 概率 被 用 作 一 个 新 虚拟 网 络 可 接受 决策 的 一 条 准则 。 该 算法 的 输入 是 基层 直 
方 图 、 每 个 虚拟 网 络 的 长 期 体 量 预 留 (V[ ] =R[ ] L) 和 每 个 虚拟 网 络 的 平均 次 
源 使 用 情况 Rallo 

接纳 控制 算法 是 以 四 步骤 完成 的 : 

1) 考虑 一 个 直方 图 ， 估 计 聚 集资 源 使 用 情况 ; 

2) 估计 需求 中 的 增加 如 何 影响 聚集 资源 使 用 情况 〈 假定 预 留 得 到 满足 ) ; 

3) 估计 一 个 函数 ， 对 新 虚拟 网 络 资源 使 用 情况 进行 建 模 ; 

4) 如 果 接受 新 网 络 ， 则 计算 阻塞 概率 。 

步骤 1 

步骤 1 的 组 成 是 ， 监 测 资源 使 用 情况 ， 并 像 前 面 描述 的 那样 存储 直方 图 。 在 这 个 
步骤 结束 时 ， 该 算法 知道 了 每 个 被 监测 时 段 的 带宽 、CPU 和 共享 内 存 的 基层 直方 图 。 

步骤 2 

在 这 个 步骤 中 ， 基 于 所 有 虚拟 网 络 都 在 使 用 所 有 预 留 资源 的 假设 ， 所 提出 的 算 
法 估计 基层 直方 图 。 思 想 是 确保 将 总 有 物理 资源 满足 所 有 的 虚拟 网 络 需求 ， 而 不 管 
同时 出 现 的 峰值 需求 是 什么 情况 。 基 于 迁移 的 解决 方案 [W00 09] 通常 是 缓慢 
的 ， 因 为 它们 依赖 于 观测 一 段 时 间 的 资源 阻塞 情况 ， 之 后 搜索 虚拟 拓扑 和 物理 拓扑 
之 间 的 一 个 新 映射 ， 以 避免 过 载 物理 节点 ， 最 后 迁移 被 选中 的 虚拟 节点 。 这 种 解决 
方案 可 导致 报 文 丢失， 造成 对 基础 设施 提供 商 的 惩罚 。 不 使 用 合适 的 接纳 控制 的 基 
于 迁移 的 解决 方案 ， 可 能 过 载 物理 节点 ， 导 致 虚拟 网 络 映射 到 物理 基层 中 的 丢失 和 
震荡 。 因 此 ， 重 要 的 是 ， 在 接纳 一 个 新 虚拟 网 络 进入 一 个 物理 节点 之 前 ， 估 计 它 对 
基层 的 影响 。 所 提出 建议 的 关键 思路 是 ， 使 用 如 下 假设 估计 资源 阻塞 情况 ， 即 接受 
新 的 虚拟 网 络 请 求 且 所 有 虚拟 网 络 完全 地 利用 相关 联 的 物理 资源 。 

所 提出 的 算法 估计 需求 增加 为 


A= Y Rn) -Re[n] (8.1) 


AP, MERMER 

变量 A 估计 需求 增加 对 物理 基层 的 影响 。 为 得 到 这 个 估计， 假定 虚拟 网 络 将 
请 求 所 有 预 留 的 资源 ， 且 需求 没有 作为 预 留 请 求 量 级 的 一 个 函数 而 增加 。 函 数 
f(t) 对 虚拟 网 络 i 的 资源 使 用 情况 建 模 ， 且 这 个 网 络 增加 的 资源 使 用 情况 估计 由 
f(t) + A; 给 定 ， 其 中 A, =R[i] -Res[i。 不 过 ， 对 于 所 提出 算法 的 每 个 网 络 个 体 
地 增加 其 消耗 的 方式 是 不 相关 的 ， 但 与 每 个 虚拟 网 络 使 用 其 全 部 预 留 时 的 聚集 使 用 
增加 的 方式 是 相关 的 。 在 得 到 A [方程 (8.1)] 之 后 ， 控 制 器 更 新 直方 图 。 首 先 ， 
依据 A, 平移 直方 图 。1[i] EAER Li] W-E EIER, ILU] 是 包含 值 
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L [i] +A 的 一 个 时 段 ， 那 么 
L[i'-1] «L[i] * A&L,[i'] (8.2) 

此 外 , Halil) EMR Ii] 中 所 发 生 事件 数 ，Ni 是 直方 图 中 时 段 数 。 
因此 ， 被 平移 的 直方 图 及 ,计算 为 及 (CI ] ) 2 Bu lil) o AAI BIL Nin |] 定义 
为 
L[N, -1] «I(N,] «o (8.3) 

以 便 维持 固定 数量 的 时 段 。 图 8.3 给 出 Wu 210 和 A=1 时 直方 图 平移 的 一 个 例子 。 
在 这 个 步骤 之 后 ， 控 制 器 计算 被 平移 子 层 直 方 图 (PMFEQQ) 的 概率 质量 函数 
(PMF), (exe x 轴 的 值 由 L.[s] 给 定 ， 如 图 8.4 所 示 。 
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a) b) 


图 8.3 当 No=10 和 A=l 时 基层 直方 图 平移 的 例子 
a) 基层 直方 图 (Ha) b) 被 平移 基层 直方 图 (Ha) 
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速率 


图 8.4 图 8.3b 所 示 被 平移 基层 直方 图 的 概率 质量 函数 


步骤 3 

基于 一 个 预定 义 分 布 ， 控 制 器 估计 新 虚拟 网 络 的 需求 。 例 如 ， 一 个 乐观 的 接纳 控制 
需 假 定 一 个 泊 松 分 布 ， 而 一 个 悲观 的 接纳 控制 器 假定 中 心 在 峰值 速率 值 的 一 个 分 布 。 

依据 基层 直方 图 的 时 段 ![n] ， 表 示 为 新 虚拟 网 络 估计 的 分 布 (PMFLL) ， 假 定 
x 轴 的 值 由 L,[ ] 给 定 。 

步骤 4 

控制 器 算法 为 每 个 资源 估计 阻塞 概率 。 这 个 概率 被 用 来 确定 是 否 应 该 接受 一 个 
新 的 虚拟 网 络 。 依 据 为 新 虚拟 网 络 假定 的 分 布 ( PDF,., ) ， 所 提出 算法 使 用 PDF 
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计算 资源 阻塞 概率 。 考 虑 

A= |(x,,%,) 12, *x,zCl ,x ,x e [L[0] ZN (8.4) 
是 一 个 元 组 (x, ，x,) RA, Hex, +; 超过 资源 容量 C， 通 过 使 用 式 〈8.5) ， 控 
制 器 计算 资源 阻塞 概率 为 


P= 》 PRR (a) © PDF 08) (8.5) 
V(xj.x3) ed 
因此 ， 所 提出 算法 估计 被 平移 基层 直方 图 中 使 用 资源 总 和 以 及 新 网 络 超过 物理 
容量 的 概率 。 
接受 新 的 虚拟 路 由 器 ， 如 果 对 静态 需求 存在 足够 的 资源 且 如 果 条 件 
X R [n] < C HP, <P, (8.6) 


对 所 有 资源 的 所 有 直方 图 成 立 ， 其 中 Pi 是 由 基础 设施 管理 员 建 立 的 资源 阻塞 概率 
界 的 值 。 一 个 小 的 P, 值 确保 低 的 报 文 丢失 概率 值 。 不 过 ， 它 也 降低 资源 利用 率 的 
效率 ， 且 作为 一 个 结果 ， 有 利于 基础 设施 提供 商 。 

3. 平面 隔离 模块 

如 前 所 述 ， 为 取得 高 性 能 ， 至 关 重 要 的 是 通过 dom 转发 报 文 。 但 是 ， 通 过 将 
报 文 转发 与 路 由 控制 隔离 ， 虚 拟 路 由 器 不 能 更 新 它们 的 转发 表 和 它们 的 报 文 过 滤 
器 ， 原 因 是 它们 不 能 访问 dom0 内 存 区 。 系 统 检 测 domUs 中 表 和 过 滤器 的 内 容 ， 并 
在 数据 平面 管理 器 模块 的 dom0 中 制作 这 些 内 容 的 一 个 副本 。 因 此 ，domU 中 的 客 
户 端 监 测 转 发 表 和 报 文 过 滤器 中 的 变化 ， 且 dom0 中 的 服务 器 将 每 个 domU 中 的 转 
发 表 和 报 文 过 滤 顺 映射 到 domO 。 

domU 中 转发 表 或 报 文 过 滤器 中 的 每 个 变化 必须 立刻 在 dom0 中 其 副本 处 得 到 
更 新 。 出 于 这 个 原因 ， 在 每 当 有 一 次 控制 消息 到 达 时 ， 数 据 平面 管理 器 客户 端 就 检 
查 domU 中 转发 表 和 报 文 过 滤器 中 的 变化 。 如 果 检 测 芭 任何 差异 ， 客 户 端 通过 安全 
的 通信 模块 将 变化 传输 到 dom0。 当 数据 平面 管理 器 服务 器 接收 到 通知 一 次 转发 表 
变化 的 一 条 消息 时 ， 它 搜索 那个 domU 的 设置 以 找 出 要 将 变化 插入 到 哪个 dom0 K, 
在 报 文 过 滤器 更 新 中 ， 服 务 器 修改 接收 到 的 规则 ， 方 法 是 插入 规则 参数 ， 这 些 参 数 
规范 虚拟 网 络 的 特征 。 这 个 规程 避免 一 个 虚拟 路 由 器 在 报 文 过 滤器 中 创建 这 样 的 规 
则 : 影响 其 他 虚拟 路 由 器 中 的 流量 。 

4. 安全 的 通信 模块 

安全 的 通信 模块 在 dom0 和 domUs 之 间 创 建安 全 的 通信 信道 ， 在 数据 传递 中 提 
供 相 互 的 认证 和 隐私 。 要 求 一 条 安全 的 通信 信道 ， 原 因 是 数据 平面 聚集 了 所 有 虚拟 
网 络 的 所 有 转发 表 。 为 保障 隔离 ， 隐 私 和 认证 是 必需 的 。 因 为 这 个 模块 经 常 被 用 来 
更 新 dom0 中 的 数据 平面 ， 所 以 它 必须 是 轻 量 的 。 要 求 相 互 认证 ， 是 为 了 确保 没有 
哪个 域 可 伪造 一 个 共同 域 的 身份 或 dom0 的 身份 ， 以 在 对 应 于 被 攻击 域 的 数据 平面 
中 产生 误导 的 信息 。 
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安全 的 通信 模块 由 两 个 协议 组 成 : 用 于 交换 会 话 密 钥 (K.) 的 基于 非 对 称 密 
码 学 的 一 个 协议 〈 见 图 8. 5a 中 所 述 ) 和 用 于 domU 和 dom0 之 间 数 据 安全 传输 的 基 
于 对 称 密码 学 的 另 一 个 协议 〈 见 图 8. Sb 中 所 述 ) ， 其 中 kp BAVA AA, Kp 是 公开 
密 钥 , E ([M] key) 是 采用 对 称 或 非 对 称 密码 学 的 密 钥 对 消息 M 的 加 密 ，Sign 
([M], k) 表示 消息 M 及 其 采用 WES, id 是 源 节点 身份 。 这 些 协议 避免 重 放 
攻击 ， 其 中 敌对 域 重复 老 的 控制 消息 来 破坏 被 攻击 域 数据 平面 中 的 信息 ， 使 用 序列 
号 和 随机 数 ， 后 者 是 随机 选择 的 数 ， 仅 应 该 在 控制 消息 中 使 用 一 次 。 为 增加 对 抗 重 
放 攻 击 的 鲁 棒 性 ， 每 次 一 个 序列 号 达到 一 个 最 大 值 时 ， 所 提供 机 制 也 改变 会 话 密 
钥 。 这 可 确保 dom0 和 domU 之 间 的 通信 是 安全 的 ， 因 为 系统 检查 真实 性 、 隐 私 性 
和 数据 不 可 再 生性 (non- reproducibility ) 。 


DomU DomO 


E([id.seq_numgonu]sKPdomu) 


授权 
E(fid noncel,seq_nuMgomu]-KPaomo) 

KeyU 
:Ksni,seq_numgomu],Kpaomo) ， 
Kpdomu) 











E([E(id,noncel,nonce2 


Key0 
E([E(idnonce2,Ksn2;seq_numaomo],Kpdomo)l, 
Kpyom0) 


a) 


DomU Dom0 


l 请 求 
E([id.seq - NUMdomu-data],Ks) 


E( [idseq_numdomU'seq_numdonoj'Ks) 
b) 


图 8.5 在 dom0 fil domU 之 间 创 建 一 条 安全 信道 的 消息 序列 
a) 会 话 密 钥 建立 ，K, 2f(Ka, Ko) b) 更 新 数据 平面 的 消息 交换 


5. QoS 提供 

所 提供 架构 的 一 项 重要 优势 是 支持 QoS 提供 。 虽 然 没 有 使 用 平面 隔离 的 一 台 
虚拟 路 由 器 可 使 用 一 种 流量 控制 机 制 来 实施 控制 ， 但 它 不 能 确保 QoS。 在 将 流量 从 
物理 设备 驱动 转发 到 虚拟 设备 驱动 时 ， 一 台 虚 拟 路 由 器 对 其 自己 的 流量 没有 控制 能 
力 。Xen 架构 中 的 L/O 操作 是 在 dom0 中 完成 的 ， 这 是 驱动 域 ， 结 果 是 ，domUs 没 
有 转发 操作 的 完全 控制 能 力 。 当 采用 平面 隔离 时 ， 数 据 平面 被 放置 在 dom0 rp, ix 
支持 转发 功能 和 QoS 支持 的 细 粒 度 控制 。 所 提供 架构 为 在 虚拟 网 络 中 和 虚拟 网 络 
间 添 加 QoS 规则 提供 原 语 ， 如 图 8. 6a 和 图 8. 6b 所 示 ， 分 别 是 通过 虚拟 机 和 通过 
dom0 的 报 文 转发 。 图 8. 6a 详细 描述 所 提供 架构 的 QoS 模块 ， 其 中 假定 报 文 转发 要 
通过 虚拟 机 进行 。 依 据 这 种 方案 ， 基 础 设施 提供 商 可 配置 一 些 虚拟 网 络 对 物理 硬件 
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的 优先 级 访问 。 此 外 ,任何 虚 拟 网 络 运 营 商 可 在 虚拟 机 内 部 区 分 正 被 处 理 的 它 自 己 
的 报 文 。 
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图 8.6 在 所 提供 架构 中 每 个 虚拟 网 络 内 (QoS 运营 商 ) 和 虚拟 网 络 间 
(QoS 提供 商 ) 的 QoS 提供 
a) 假定 通过 虚拟 机 进行 报 文 转发 的 QoS 提供 
b) 假定 平面 隔离 范 型 的 QoS 提供 ， 其 中 报 文 转发 是 排他 地 在 domo 中 实施 的 


平面 隔离 的 使 用 意味 着 每 个 虚拟 网 络 的 数据 平面 (以 前 在 domU 中 ) 现在 被 放 
到 dom0 F, AE, QoS 提供 必须 被 修改 以 便 与 平面 隔离 一 起 工作 。 结 果 ， 必 须 在 
domO 中 准备 虚拟 网 络 运营 商 和 基础 设施 提供 商 的 QoS 提供 方法 ， 如 图 8. 6b 所 示 。 
所 提出 的 架构 提供 了 一 个 接口 ， 使 虚拟 路 由 器 可 通过 QoS 运营 商 客户 端 和 QoS iz 
营 商 服务 器 组 件 来 配置 它们 自己 的 QoS 规则 。 这 些 组 件 保 障 一 个 虚拟 网 络 可 配置 
ERY QoS 规则 ， 而 不 干扰 其 他 虚拟 网 络 的 QoS 规则 。 

6. 分 析 

本 节 分 析 当 与 EUC 控制 器 一 起 使 用 时 的 访问 控制 和 QoS 模块 。 引 入 这 些 模块 
是 为 了 保障 对 QoS 需求 的 支持 。 

(1) 接纳 控制 模块 评估 

所 提供 架构 的 虚拟 网 络 接纳 控制 是 以 C++ 实现 的 。 使 用 仿真 在 不 同 流量 模式 
下 评估 了 所 提出 的 算法 。 将 所 提供 建议 与 其 他 方法 进行 了 比较 ， 即 Sandpiper 
[WOO 09] 和 基于 蚁 群 元 启发 的 虚拟 网 络 内 艇 算法 (VNE-AC) [FAJ 11]。 

Sandpiper 是 监测 数据 中 心中 虚拟 机 负载 的 一 个 系统 。 当 一 台 物 理 机 器 过 载 
( 当 对 资源 的 请 求 被 阻塞 时 确定 的 ) 时 ，Sandpiper 寻找 一 个 新 虚拟 机 ， 该 虚拟 机 能 
够 寄居 过 载 节点 的 一 个 或 多 个 虚拟 机 。Sandpiper 中 的 接纳 控制 基于 当前 虚拟 机 峰 
值 负载 和 新 物理 机 器 中 空闲 资源 的 平均 量 。 如 果 资 源 需求 的 峰值 为 其 累积 分 布 函数 
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的 95% ， 或 如 果 它 小 于 或 等 于 空闲 资源 的 平均 量 ， 那 么 接纳 新 的 虚拟 网 络 。 

VNE- AC 是 一 种 虚拟 网 络 映射 机 制 ， 它 是 Horizon 项 目的 组 成 部 分 ， 用 于 全 局 
虚拟 网 络 的 控制 。 这 个 算法 基于 蚊 群 元 启发 式 方法 ， 确 定 物理 基层 上 的 适当 映射。 
VNE- AC 中 建议 的 接纳 控制 机 制 假定 资源 是 静态 地 属于 每 个 虚拟 网 络 的 。 结 果 ， 这 
个 接纳 控制 法 限制 SLA 规格 。 

实现 了 Sandpiper 和 VNE-AC 接纳 控制 ， 将 它们 与 所 提供 机 制 进行 了 比较 。 依 
据 作者 的 提议 ，Sandpiper 峰值 速率 被 选 为 p, =95% 。VNE- AC BUE B (B BBL RES 
R, BOE EUC 中 长 期 体 量 预 留 的 平均 速率 (V) 。 为 验证 这 个 规程 的 效率 ， 也 评估 
T A [ 式 (8.1)] 对 结果 的 影响 ， 表 示 为 “Hist" 。 

在 评估 中 ， 测 量 了 一 个 物理 路 由 器 中 可 寄居 的 由 每 种 机 制 接纳 的 虚拟 网 络 数 。 
出 于 简单 性 考虑 ， 假 定 所 有 虚拟 网 络 给 出 相同 的 资源 预 留 参数 ， 且 对 于 我 们 的 建 
议 ， 直 方 图 中 时 段 数 为 N,, =30. 

也 测量 了 每 个 试验 中 被 分 析 物 理 节点 中 的 理想 虚拟 网 络 数 。 这 个 理想 数 被 选 作 
保障 由 基础 设施 管理 员 确 定 的 阻塞 概率 阔 值 (P) 不 被 违规 的 最 大 虚拟 网 络 数 。 
因为 Sandpiper 的 p, =95% ， 对 于 一 个 公平 组 合 ， 选 择 P, =0.05。 一 方面 ， 如 果 一 
个 接纳 控制 机 制 接纳 的 网 络 数 小 于 理想 数 ， 则 浪费 了 物理 机 器 资源 。 另 一 方面 ， 如 
果 接 纳 榨 制 机 制 接纳 的 虚拟 网 络 数 大 于 理想 数 ， 则 物理 节点 被 过 载 ， 导 致 对 基础 设 
施 提供 商 的 惩罚 。 对 于 接纳 高 于 理想 值 的 多 个 虚拟 网 络 而 言 ， 首 选 接纳 较 少 的 虚拟 
网 络 。 

为 每 个 试验 执行 了 总 共 30 个 轮 次 ， 分 析 了 以 报 文 数 每 秒表 示 的 输出 链 路 吞吐 
量 ; 将 给 出 所 关注 度量 元 的 标准 差 。 

1) 流量 模式 影响 。 第 一 个 试验 采用 以 泊 松 过 程 建 模 的 流量 ， 评 估 虚 拟 网 络 。 
每 个 虚拟 网 络 需求 ~100MbitVs， 它 也 是 R, 的 值 。 图 8. 7a 表明 所 有 机 制 都 接纳 理想 
的 虚拟 网 络 数 。 因 此 ， 如 果 虚 拟 网 络 流量 呈现 一 个 小 的 偏差 ， 那 么 所 有 被 分 析 机 制 
都 能 够 正确 地 实施 接纳 控制 。 图 8.7b 表明 ， 这 个 场景 中 的 接纳 控制 是 不 连续 的 : 
10 个 网 络 不 导致 阻塞 ， 而 11 个 网 络 导致 00% 的 阻塞 。 

为 评估 各 建议 在 具有 较 大 流量 变化 的 环境 中 的 情况 ， 也 采用 由 一 个 on- off 模型 
描述 的 流量 模型 仿真 虚拟 网 络 。 在 图 8. 8 中 给 出 结果 。 在 这 个 试验 中 ， 所 有 虚拟 网 
络 呈现 相同 流量 模式 。 基 于 j=1/3 的 一 个 指数 分 布 产生 on-off 流量 。 时 间 间 隔 是 
指数 分 布 的 。 在 on 状态 中 的 流量 由 A ~~200Mbit/s 的 一 个 泊 松 分 布 进行 建 模 。 
图 8. 8a 表 明 Sandpiper 和 VNE- AC 比 其 他 建议 接纳 更 多 的 虚拟 网 络 。 不 过 ， 这 两 种 
机 制 接纳 的 虚拟 网 络 大 于 虚拟 网 络 数 〈 图 8.8b) 。Sandpiper 低估 了 资源 占有 率 ， 
并 支持 约 10 个 网 络 的 接纳 。VNE- AC 的 行为 类 似 于 Sandpiper。VNE- AC 在 图 8.7 
和 图 8. 8 中 的 场景 之 间 不 能 做 出 区 分 。 具 有 不 同 数据 模式 的 虚拟 网 络 是 同等 对 竺 
的 ， 产 生 接纳 控制 的 误导 信息 。 建 议 接纳 接近 理想 数 的 多 个 网 络 ， 产 生 低 的 阻塞 概 
率 和 高 效 的 资源 使 用 。 
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a) 


10 15 20 
虚拟 网 络 数 
b) 
图 8.7 假定 虚拟 网 络 具有 以 一 个 泊 松 过 程 建 模 的 流量 和 
5% 最 大 阻塞 概率 下 的 接纳 控制 
a) 由 每 种 机 制 接纳 的 虚拟 网 络 数 b) 依据 并 行 虚拟 网 络 数 的 阻塞 概率 


Sandpiper — VNE-AC 


建议 方案 Hist 





接纳 控制 机 制 


a) 


图 8.8 假定 具有 on-off 流量 的 虚拟 网 络 和 5% 最 大 阻塞 概率 的 接纳 控制 
a) 由 每 种 机 制 接纳 的 虚拟 网 络 数 b) 依据 并 行 虚拟 网 络 数 的 阻塞 概率 
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2) A 影响 。 这 个 试验 评估 具有 变化 需求 的 虚拟 网 络 。 在 这 个 场景 中 ， 虚 拟 网 
络 的 吞吐 量 增加 到 长 期 体 量 预 留 的 阐 值 。 当 其 他 虚拟 网 络 做 1/2 预 留 时 ， 发 送 新 虚 
拟 网 络 的 接纳 请 求 。 图 8. 9a 表明 算法 Hist 和 Sandpiper 接受 所 有 的 网 络 ， 因 为 它们 
不 考虑 需求 增加 。 建 议和 VNE- AC 考虑 变化 的 需求 ， 并 支持 接近 于 理想 数 的 被 接 
受 虚拟 网 络 数 。 


Hist | Sandpiper 


虚拟 网 络 





接纳 控制 机 制 


a) 


阻塞 概率 


图 8.9 假定 具有 增长 流量 和 5% 最 大 阻塞 概率 的 虚拟 网 络 的 接纳 控制 
a) 由 每 种 机 制 接纳 的 虚拟 网 络 数 b) 依据 并 行 虚拟 网 络 数 的 阻塞 概率 


基于 这 些 结果 ， 可 看 出 所 提供 接纳 控制 ， 是 在 所 有 被 分 析 场 景 中 高 效 的 唯一 被 
分 析 机 制 ， 保 障 接纳 大 量 虚拟 网 络 ， 而 不 违反 基础 设施 管理 员 施 加 的 阻塞 概率 
DIER 

(2) 服务 质量 提供 的 评估 

评估 了 所 提供 架构 的 QoS 组 件 [FER 12]。 图 8. 10 给 出 基础 设施 提供 商 使 用 
QoS 前 提 的 效应 。 在 由 两 个 虚拟 网 络 组 成 的 这 个 场景 中 ， 假 定 在 网 络 1 中 ， 其 流量 
面临 一 个 小 的 转发 时 延 。 为 输出 链 路 假定 如 下 参数 值 : 对 网 络 1，R,[1] =SOMbit/s 
fil R,[1] 2400Mbit/s; 对 网 络 2, R,[2] =100Mbit/s Al R,[ 2] =600Mbit/s, CPU 和 
内 存 资源 是 均等 地 在 网 络 之 间 分 割 的 。 网 络 输入 需求 分 别 是 D[1] = 50Mbit/s 和 
D[2] =1Gbit/s。 为 D[2] 选择 一 个 大 的 值 ， 原 因 是 一 个 大 体 量 的 流量 可 阻止 向 网 
络 1 提供 QoS。 使 用 平面 隔离 的 网 络 2 的 流量 ， 在 两 台 外 部 机 器 之 间 流 动 。 通 过 虚 
拟 机 路 由 的 网 络 1 流量 ， 是 由 一 台 不 同 的 外 部 机 器 产生 的 ， 它 与 网 络 2 流量 共享 输 
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出 链 路 。 

图 8. 10 给 出 带 有 和 不 带 有 所 提供 QoS 支持 的 网 络 中 的 往返 时 间 (RTT) 值 。 
在 第 一 个 场景 中 ,标记 有 “w/o 优先 级 ”， 两 个 网 络 有 相同 优先 级 ， 而 在 第 二 个 场 
景 中 ,标记 有 “优先 级 "， 网 络 1 流量 是 优先 的 。 当 为 一 个 虚拟 网 络 赋予 优先 级 
时 ， 即 使 不 使 用 资源 共享 管理 器 EUC， 对 于 带 优 先 级 的 流量 ，RTT 值 也 减少 10 倍 
BE. EH QoS 支持 ， 确 保 网 络 2 既 不 超过 网 络 的 使 用 量 也 不 超过 CPU 的 使 用 量 ， 
降低 了 被 处 理 数据 体 量 ， 由 此 降低 了 传输 时 延 。 因 此 ， 当 与 没有 采用 建议 和 没有 优 
先 级 的 场景 比较 时 ，QoS 模块 将 RTT 值 降低 18 HUE; 当 与 带 有 优先 级 流量 但 没 
有 资源 共享 管理 器 EUC 的 场景 比较 时 ，QoS 模块 将 RTT 值 降低 1. 8 倍 以 上 。 


wo 建议 方案 


平均 RTT/s 





0 
w/o 优先 级 优先 级 w/o 优先 级 优先 级 


图 8. 10 ”假定 网 络 1 是 带 优先 级 的 ， 则 依据 虚拟 网 络 间 的 
QoS 参数 得 到 的 RTT 


8.1.2 OpenFlow 管理 架构 


OpenFlow 有 不 同 于 Xen 的 一 个 架构 。 在 OpenFlow 网 络 中 ， 控 制 平 面 是 中 心 化 
在 一 个 节点 中 的 ， 而 数据 平面 则 分 布 在 物理 OpenFlow 交换 机 上 。 

开发 工具 OpenFlow 管理 基础 设施 (OMNI) ， 它 被 用 作 集 成 OpenFlow 管理 模块 
的 基础 [MAT 11]。 总 体 架构 概 图 如 图 8. 11 所 示 。 

由 于 数据 平面 的 去 中 心 化 特性 ， 针 对 OpenFlow 网 络 提出 的 架构 是 简单 的 。 在 
转发 节点 中 不 需要 修改 。 被 共享 的 节点 没有 注意 到 它们 的 虚拟 化 。 因 此 ， 所 提出 的 
功能 受 限于 控制 器 和 FlowVisor。 

OMNI 的 原始 版 本 是 为 与 任何 OpenFlow 控制 器 一 起 工作 而 设计 的 ， 提 供 网 络 
视图 和 虚拟 网 络 间 管 理 功能 。OMNI 的 扩展 版 本 与 FlowVisor 耦合 工作 ， 向 基础 设 
施 管理 员 提 供 管理 功能 。 这 个 扩展 版 本 为 由 所 有 虚拟 网 络 共 享 的 物理 资源 运行 控制 
算法 。 

在 图 8.11 右 侧 描 述 新 的 OMNI 模块 。 在 这 幅 图 中 ， 观 察 到 所 有 控制 器 与 
FlowVisor 交互 ，FlowVisor 接 下 来 与 OpenFlow 网 络 交 互 。OpenFlow 网 络 是 由 Open- 
Flow 交换 机 组 成 的 。 可 选择 的 做 法 是 ， 可 在 这 些 节点 中 使 用 代理 ,来 增加 管理 性 
能 和 添加 新 的 监测 功能 。 各 代理 也 可 聚集 在 中 间 设 备 ， 甚 至 在 基础 设施 控制 器 节点 
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虚拟 网 络 控 制 器 n , 
| 虚拟 网 络 控制 器 2 
虚拟 网 络 控制 器 1 





资源 管理 器 一 一 一 一 一 


MUC 或 EUC 





Qos 运 营 商 | 
| | { Qos 提 供 商 












OpenFlow 交 换 机 
( 带 有 代理 ) 






图 8.11 使 用 OpenFlow 平台 的 Horizon 架构 设计 


中 ， 以 有 利于 分 布 式 控制 功能 的 性 能 提升 。 

FlowVisor 是 由 OpenFlow 团队 提供 的 一 个 接口 ， 在 几 个 控制 器 间 共 享 OpenFlow 
交换 机 [SHE 09], FlowVisor 提供 配置 物理 交换 机 资源 (如 内 存 和 队列 ) 的 一 个 
接口 。 但 是 ， 它 不 提供 控制 算法 。 采 用 Xen 使 用 的 相同 控制 器 算法 来 控制 Open- 
Flow 中 的 资源 ， 原 因 是 这 些 算法 是 平台 无 关 的 。 因 此 ， 在 OMNI 中 可 应 用 EUC, 
MUC 、 模 糊 软 辑 、 接 纳 控制 、QoS 运营 商 和 QoS 提供 商 等 模块 的 逻辑 ， 来 控制 
FlowVisor 资源 。 也 添加 代理 来 模拟 一 个 分 布 式 控 制 行为 。 

下 面 介绍 OpenFlow 管理 架构 的 评估 。 

评估 了 OMNI 的 响应 时 间 和 操作 运行 ， 将 由 OMNI 产生 的 控制 报 文 数 与 网 络 操 
VERS. (NOX) 产生 的 控制 报 文 数 做 了 比较 ， 以 便 估计 由 OMNI 产生 的 控制 额外 
负担 。 使 用 运行 OpenvSwitch 软件 [WAN 08] (OpenFlow 的 一 个 实现 ) 的 个 人 计 
算 机 配置 一 个 试验 网 络 。OpenvSwitch 作为 一 个 内 核 模 块 工作 ， 并 确保 高 性 能 的 报 
文 转发 。 试 验 场景 由 4 台 OpenFlow 交换 机 、 一 个 FlowVisor 实体 和 一 个 NOX 控制 
WEB, Ul 8.12 所 示 。OpenFlow 交换 机 和 FlowVisor 运行 在 Intel Core 2 Duo 计算 
机 上 ， 带 有 2GCB 内 存 。 控 制 器 运行 在 带 有 4GB 内 存 的 一 台 Intel 17 计算 机 上 。 在 这 
台 计 算 机 上 也 运行 Ginkgo 代理 (控制 每 台 OpenFlow 交换 机 的 代理 ) 。 期 望 的 置信 
区 间 是 95% 的 置信 水 平 。 

第 一 个 试验 评估 由 多 代理 系统 实施 的 迁移 。 第 一 个 试验 由 一 条 流 迁 移 组 成 ， 从 
由 交换 机 A、B 和 D 组 成 的 路 径 迁 移 到 由 交换 机 A、C 和 D 组 成 的 路 径 ( 见 
图 8. 12 ) 。 探 测 流量 是 一 条 用 户 数据 报 协议 (UDP) 流 ， 报 文 尺寸 为 1470B ， 速 率 
M0. SMbit/s 变化 到 3Mbit/s。 在 这 个 场景 中 ，AB 链 路 的 吞吐 量 受到 200kbit/s 的 
OpenFlow 上 界 约 束 ， 而 其 他 链 路 (BD、AC 和 CD) 使 用 它们 的 全 容量 (Mbit/s), 
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控制 器 











图 8.12 从 路 径 A- B- D 到 路 径 A-C-D 的 流 X 迁移 


因此 ， 当 传输 速率 超过 200kbit/s 时 发 生 报 文 丢 失 。 测 量 报 文 丢失 ， 以 便 自治 地 触 
发 流 迁 移 。 为 就 流 迁 移 做 出 决策 ， 代 理 验 证 其 被 监测 交换 机 的 丢失 速率 ， 也 将 局 部 
报 文 丢失 率 与 其 他 代理 交换 得 到 的 丢失 率 比 较 。 出 于 比较 目的 ， 将 报 文 丢失 率 和 效 
值 提 供给 代理 作为 参数 ， 并 依据 每 个 网 络 进行 设置 。 所 开发 的 代理 以 10s 的 固定 时 
间 间 隔 感 知 网 络 ， 并 仅 在 三 次 连续 的 采样 表明 报 文 琶 失 率 大 于 阅 值 之 后 ， 才 迁移 一 
条 流 。 图 8. 13a 表明 ， 代 理 正确 地 检测 流 路 径 内 的 瓶颈 链 路 ， 之 后 迁移 该 流 以 避免 
或 降低 报 文 丢失 率 。 因 为 各 代理 在 固定 时 间 间 隔 处 观测 链 路 中 的 丢失 率 ， 则 启动 代 
理 和 就 流 迁 移 做 出 决策 之 间 的 时 间 是 独立 于 报 文 传输 率 的 。 监 测 表 明 ， 在 启动 测量 
规程 之 后 ， 代 理 平均 29. 4s 触发 迁移 。 

流 实例 化 是 在 一 个 OpenFlow 网 络 中 控制 额外 负担 主要 原因 之 一 ， 因 为 当 一 条 
报 文 不 匹配 一 台 交 换 机 中 的 任何 流 时 ， 该 报 文 被 转发 到 控制 器 ， 且 控制 器 发 送 一 条 
命令 到 交换 机 。 因 此 ， 下 一 个 试验 评估 由 OMNI 引入 的 控制 额外 负担 ， 以 及 OMNI 
应 用 对 流 实 例 化 的 影响 。 在 使 用 NOX 或 NOX + OMNI 实例 化 新 流 时 ， 测 量 穿 越 一 
个 OpenFlow 网 络 的 控制 报 文 速率 。“NOX” 指 代 运 行 其 原始 应 用 的 一 个 NOX 控制 
器 ， 这 些 应 用 收集 网 络 统计 量 和 配置 报 文 转发 ， 而 “NOX + OMNI” 指 在 NOX 控制 
器 上 运行 所 有 OMNI 应 用 。 图 8. 13b 对 于 一 个 变化 的 流 实例 化 速率 比较 控制 额外 负 
担 。 对 于 高 达 400 条 流 /s 的 实例 化 而 言 ， 这 两 个 系统 之 间 的 差异 是 可 忽略 的 ， 原 
因 是 NOX 和 NOX + OMNI 给 出 几乎 相同 的 控制 负载 。 当 实例 化 速率 大 于 500 条 流 /s 
时 ，NOX + OMNI 的 控制 负载 要 小 于 NOX 的 控制 负载 ， 但 图 8. 13c 表明 ，NOX + 
OMNI 不 能 实例 化 NOX 那么 多 的 流 。 采 用 OMNI 取得 的 流 实 例 化 速率 大 于 NOX + 
OMNI 的 速率 。 同 样 ， 因 为 测试 不 稳定 性 ，NOX + OMNI 的 误差 条 尺寸 C error bar 
size) 增加 。 实 际 上 ，NOX + OMNI 尝试 处 理 比 控制 器 能 够 处 理 更 多 的 数据 。 因 为 
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图 8.13 由 一 个 代理 调用 迁移 功能 的 迁移 试验 以 及 NOX 和 
OMNI 之 间 控 制 过 载 比较 结果 
a) 运行 代理 前 /后 的 报 文 丢失 b) NOX 和 OMNI 控制 负载 
c) NOX 和 OMNI 流 实例 化 速率 


监测 每 个 资源 的 OMNI 间隔 是 可 配置 的 ， 增 加 这 个 间隔 就 降低 OMNI 额外 负担 ， 这 
以 增加 统计 测量 粒度 为 代价 ， 导 致 较 高 的 流 实例 化 速率 。 


8.2 一 个 混合 的 Xen 和 OpenFlow 系统 架构 设计 


Xen 和 OpenFlow 都 有 优势 和 劣势 。OpenFlow 给 出 简单 的 流 配置 机 制 ，Xen 在 
报 文 处 理 方面 是 比较 灵活 的 。 这 就 促 动 了 一 种 混合 架构 的 定义 ， 强 调 每 个 平台 的 优 
势 ， 得 到 一 个 功能 强大 的 虚拟 化 平台 。 采 用 在 前 面 各 节 描 述 的 少量 修改 的 管理 工具 
[MAT I1, PIS 11] 也 应 用 到 这 个 架构 。 
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在 互联 网 核心 中 使 用 新 协议 和 服务 ， 与 多 数 服 务 提供 商 的 趋势 是 矛盾 的 ， 这 是 
由 于 这 些 改 变 对 于 正确 的 网 络 操 作 运 营 代表 高 风险 以 及 改变 平台 硬件 中 涉及 的 较 高 
成 本 。 在 参考 文献 [FEA 07，RAT 05] 中 给 出 在 生产 网 络 中 支持 创新 的 网 络 虚拟 
化 建议 ， 这 支持 被 隔离 的 网 络 共享 相同 的 物理 基层 。 

网 络 虚拟 化 引入 一 个 新 的 管理 原 语 : 虚拟 网 络 的 迁移 [WAN 08). 在 不 同 语 
境 中 使 用 迁移 原 语 ， 如 物理 节点 的 维护 和 将 逻辑 拓扑 重新 映射 到 物理 拓扑 上 。 物 理 
节点 的 维护 经 常 要求 关 闭 设备 。 在 路 由 器 的 情形 中 ， 维 护 期 间 导 致 邻 接 性 丢失 ， 则 
结果 ， 出 现在 路 由 算法 收敛 过 程 中 的 网 络 失效 。 为 流量 管理 和 能 量 节省 (其 中 考 
虑 到 能 量 节省 ， 对 虚拟 节点 进行 重新 组 织 [BOL 09，ROD 12] ) ， 使 用 虚拟 网 络 重 
新 映射 [ALK 12, ALK 11]。 迁 移 也 可 被 用 来 防止 破坏 ， 如 在 一 次 拒绝 服务 
(DoS) 攻击 下 的 情况 。 在 这 个 场景 中 ， 与 处 在 攻击 之 下 的 网 络 共享 相同 物理 基层 
的 虚拟 网 络 被 迁移 到 其 他 节点 ， 这 就 防止 了 输入 链 路 中 的 过 载 。 但 是 ， 虚 拟 拓扑 的 
迁移 给 出 巨大 挑战 ， 如 虚拟 链 路 的 重新 定位 ， 以 及 由 迁移 过 程 中 服务 下 线 时 间 导 致 
的 负面 影响 的 降低 。 

存在 其 他 建议 [WAN 07，PIS 10] ， 以 一 种 透明 方式 将 逻辑 拓扑 迁移 到 网 络 边 
缘 ， 而 没有 报 文 丢 失 或 中 断 的 连接 。 但 是 这 些 建 议 是 有 效 的 场景 ， 是 有 限 的 。 在 参 
考 文献 [WAN 07] 和 [PIS10] 中 ,假定 链 路 迁移 机 制 的 存在 ， 是 独立 于 节点 迁 
移 机 制 的 。 它 也 假定 ， 一 台 虚 拟 路 由 器 仅 可 从 一 台 物 理 机 器 迁移 到 相同 局 域 网 
(LAN) 中 的 另 一 台 机 器 。 否 则 ， 为 仿真 一 个 LAN， 应 该 创建 物理 机 器 之 间 的 
隧道 。 

但 是 ，OpenFlow 平台 中 的 流 迁 移 是 容易 的 。Pisa 等 给 出 一 种 算法 ， 它 基于 
OpenFlow 网 络 中 一 条 流 路 径 的 定义 [PIS 10] 。 这 个 建议 给 出 零 报 文 丢 失 和 低 的 控 
制 额外 负担 。 不 过 ，OpenFlow 迁移 不 适合 路 由 器 虚拟 化 或 流 处 理 系统 。 这 个 建议 
受 限于 交换 式 网 络 。 

本 节 介 绍 XenFlow 架构 ， 这 是 基于 Xen 和 OpenFlow 的 一 个 混合 网 络 虚拟 化 平 
台 。 建 议 描述 一 个 流 处 理 系统 ， 它 支持 虚拟 网 络 的 迁移 ， 包 括 节 点 和 链 路 的 迁移 。 
在 这 个 架构 中 ， 使 用 平面 隔离 范 型 ， 之 后 虚拟 路 由 器 被 分 成 两 个 平面 : 控制 平面 和 
数据 平面 。 控 制 平面 运行 在 一 个 Xen 虚拟 机 中 ， 负 责 在 给 定 路 由 协议 决策 情况 下 
更 新 路 由 表 。 使 用 OpenFlow 实现 的 数据 平面 ， 则 负责 依据 路 由 策略 转发 报 文 。 路 
由 策略 基于 确定 的 路 由 ， 这 是 由 控制 平面 计算 得 到 的 。 这 项 网 络 虚拟 化 技术 的 主要 
优势 如 下 : 

1) 带 有 高 度 灵 活 的 数据 平面 的 平面 隔离 ; 

2) 没有 报 文 丢失 的 迁移 ; 

3) 迁移 不 被 限制 在 局 部 网 络 ; 

4) 将 逻辑 链 路 映射 到 一 条 或 多 条 物理 链 路 ; 

5) OpenFlow 数据 平面 使 用 分 布 式 网 络 控制 ; 
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6) 使 用 相同 规程 ， 实 施 节 点 和 链 路 迁移 。 

构造 一 个 XenFlow 原型 ， 验 证 系统 架构 设计 。 试 验 结果 表明 ， 该 系统 实施 高 效 
的 迁移 ， 这 是 指 在 迁移 过 程 中 没有 报 文 丢失 或 路 由 服务 中 断 ; 系统 允许 在 没有 链 路 
丢失 或 报 文 转 发 时 延 的 条 件 下 ， 实 施 虚拟 路 由 器 和 链 路 的 迁移 。 当 将 XenFlow 迁移 
与 Xen 虚拟 机 原生 迁移 比较 时 ，XenFlow 给 出 零 报 文 丢失 ， 而 Xen 原生 迁移 丢失 大 
量 报 文 ， 并 在 控制 平面 更 新 过 程 中 呈现 较 长 的 下 线 时 间 。 


8.2.1 Xen 和 OpenFlow 虚拟 化 平台 的 优势 和 劣势 


OpenFlow 是 一 项 交换 技术 ， 通 过 将 动作 与 流 关 联 ， 支 持 对 报 文 转 发 编程 。 一 
条 流 由 从 帧 首部 抽取 的 多 达 12 个 字段 的 集合 定义 ， 包 括 来 自 链 路 层 、 网 络 层 和 传 
输 层 首部 [MCK 08] 的 数据 。 一 台 OpenFlow 交换 机 的 转发 表 是 流 表 。 依 据 由 一 个 
中 心 式 控制 器 定义 的 输出 动作 ， 流 表 将 一 条 流 与 交换 机 的 一 个 或 多 个 输出 端口 相 
关 。 控 制 器 处 理 一 条 流 的 第 一 个 报 文 ， 之 后 ， 定 义 动作 。Nox [GUD 08] 是 一 个 
OpenFlow 控制 器 ， 它 作为 控制 程序 和 OpenFlow 网 络 之 间 的 一 个 接口 。 一 旦 一 条 报 
文 到 达 一 台 OpenFlow 交换 机 ， 该 交换 机 就 检查 该 报 文 是 否 匹 配 任何 已 经 定义 的 流 。 
如 果 是 ， 则 为 那 条 流 定义 的 动作 就 应 用 到 该 报 文 。 如 果 不 是 ， 则 报 文 首部 被 发 送 到 
控制 器 ， 由 之 从 报 文 中 抽取 流 特征 ， 并 在 OpenFlow 交换 机 的 流 表 中 创建 一 条 新 流 。 
一 个 OpenFlow 网 络 的 一 个 例子 如 图 8. 14 所 示 。 在 OpenFlow 网 络 中 ， 迁 移 是 容易 
实施 的 ， 因 为 仅 通过 在 交换 机 中 重新 编程 流 表 就 可 做 到 。 


一 一 物理 链 路 

一 - 一 网 络 1 的 虚拟 链 路 
sasea 网 络 2 的 虚拟 链 路 
国 网 络 1 的 流 

下 可 网 络 2 的 流 





图 8.14 OpenFlow 网 络 虚 拟 化 : 流 迁移 规程 是 在 另 一 个 交换 机 集合 中 重新 定义 网 络 流 


OpenFlow 网 络 的 两 个 主要 劣势 是 需要 一 个 中 心 式 控制 平面 和 每 跳 报 文 处 理 的 
开销 。 

Xen 是 一 个 个 人 计算 机 虚拟 化 平台 ， 主 要 用 于 服务 器 合并 。 其 架构 基于 一 个 虚 
拟 化 层 ， 称 作 虚 拟 机 监测 器 (VMM) 或 hypervisor。Xen 虚拟 环境 被 称 作 虚拟 机 或 
R, 并 给 出 它们 自己 的 资源 ， 如 CPU、 内存、 磁盘 和 网 络 访问 。 也 存在 一 个 特权 
虚拟 环境 ， 称 作 dom0 ， 它 可 访问 物理 设备 ， 并 为 来 自 其 他 域 的 IO 操作 提供 访问 。 
管理 操作 也 由 hypervisor 实施 。 图 8. 15 给 出 基于 Xen 的 网 络 虚拟 化 的 一 个 例子 。 在 
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这 个 场景 中 ， 一 次 虚拟 路 由 咒 迁 移 等 价 于 将 一 台 虚 拟 机 从 一 人 台 物 理 机 需 迁 移 到 另 一 
台 物 理 机 器 。 因 为 路 由 器 实施 实时 服务 ， 一 人 台 虚 拟 路 由 器 迁移 要 求 最 小 化 报 文 转发 
服务 下 线 时 间 。 





Xen 架 构 


e 

域 0 拟 路 || 虚拟 路 
由 器 1 由 器 2 

驱动 Xen Hypervisor 物理 链 路 


硬件 一 - 一 网 络 1 的 虚拟 链 路 
---- 网 络 2 的 虚拟 链 路 























图 8. 15 Xen 网 络 虚拟 化 : 一 个 网 元 迁移 等 价 于 一 次 虚拟 路 由 器 迁移 


Xen 原生 迁移 [CLA 05] 基于 虚拟 机 实况 迁移 。 虚 拟 机 实况 迁移 组 成 是 ， 将 
虚拟 机 内 存 从 源 物理 机 器 复制 到 目的 物理 机 器 。 这 种 迁移 被 称 作 实 况 的 ， 原 因 是 在 
迁移 完成 时 ， 在 迁移 的 第 一 个 阶段 过 程 中 虚拟 机 是 运行 的 ， 它 降低 了 虚拟 机 的 下 线 
时 间 。 因 为 在 源 物 理 机 器 中 虚拟 机 内 存 页 在 迁移 规程 中 可 能 发 生变 化 ， 所 以 这 个 实 
况 规 程 使 用 内 存 页 的 一 种 迭代 复制 机 制 。 在 迭代 复制 中 ， 被 修改 的 内 存 页 被 打上 标 
签 ， 且 在 下 一 次 迭代 中 ， 它 们 被 复制 到 目的 地 。 这 个 过 程 一 直 重 复 ， 直 到 在 上 一 轮 
中 被 修改 内 存 页 数 小 于 某 个 阐 值 。 当 虚拟 机 执行 苹 挂 在 源 物理 机 器 中 时 ， 最 近 被 修 
改 的 内 存 页 被 复制 到 目的 地 ， 之 后 ， 在 目的 物理 机 器 中 恢复 虚拟 机 。 针 对 虚拟 路 由 
器 迁移 的 这 项 建议 的 一 个 劣势 是 ， 在 虚拟 机 不 可 用 时 间 过 程 中 〈( 即 悬挂 和 恢复 之 
间 消 逝 时 段 过 程 中 ) 的 报 文 丢失 。 但 是 ， 这 种 机 制 受 限 于 一 个 局 域 网 ， 因 为 这 种 
方法 假定 存在 一 个 共享 的 硬盘 ， 且 链 路 迁移 是 通过 发 送 ARP Reply (ARP 应 答 ) dí 
文 来 实施 的 。 

可 使 用 平面 隔离 来 避免 迁移 过 程 中 的 报 文 丢失 。Pisa 等 提出 针对 Xen 平台 的 一 
种 虚拟 机 迁移 方法 ， 它 将 所 有 虚拟 路 由 器 数据 平面 复制 到 dom0 中 [ PIS 10]。 因 
此 、 在 不 影响 路 由 器 和 没有 下 线 时 间 的 条 件 下 ， 实 施 数据 平面 迁移 。 但 是 ， 这 种 解 
决 方案 是 受 限 的 ， 因 为 一 次 虚拟 路 由 器 迁移 仅 在 同一 LAN 中 的 节点 之 间 进 行 。 因 
此 ， 迁 移 范围 被 限制 在 离 源 路 由 器 一 跳远 的 范围 。 


8.2.2 XenFlow 架构 设计 


所 提出 的 架构 设计 将 每 跳 报 文 处 理 和 分 布 式 控制 (Hp Xen 平台 提供 ) 与 快速 
数据 流 处 理 能 力 (由 OpenFlow 平台 提供 ) 的 优势 组 合 在 一 起 。 一 个 XenFlow 网 元 
的 架构 如 图 8. 16 所 示 。 每 个 虚拟 机 寄居 一 个 不 同 网 络 的 控制 平面 。 依 据 由 虚拟 机 
指定 的 转发 规则 ，dom0 中 的 OpenFlow 交换 机 实施 报 文 转发 。 在 这 个 架构 中 ， 一 个 
网 元 可 被 定义 为 一 台 虚 拟 交 换 机 ( 层 2)、 一 台 虚 拟 路 由 器 ( 层 3) 或 一 台中 间 设 
备 ( 层 3 以 上 )。 由 每 个 网 元 实施 的 功能 取决 于 虚拟 网 络 协议 栈 和 应 用 。 

在 XenFlow 系统 和 Xen 平台 中 ， 物 理 设备 驱动 都 在 dom0 中 ， 那 么 虚拟 机 和 物 
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图 8.16 一 个 XenFlow 网 元 的 架构 : 一 台 OpenFlow 交换 机 和 一 个 OpenFlow 
控制 器 运行 在 物理 路 由 器 的 域 0 上 


理 设备 之 间 的 所 有 通信 都 通过 dom0。 因 此 ，dom0 复 用 来 自 虚 拟 网 络 的 报 文 到 物理 
设备 ， 并 解 复 用 来 自 物理 设备 的 报 文 到 虚拟 网 元 [FER 11 ] 。 在 XenFlow 架构 中 ， 
由 一 台 OpenFlow 交换 机 实施 复 用 和 解 复 用 过 程 。 依 据 由 OpenFlow 交换 机 控制 器 
(是 运行 在 dom0 中 的 一 个 应 用 ) 定义 的 规则 ， 对 报 文 转发 编程 。 这 个 控制 器 与 虚 
拟 机 交互 ， 发 现 由 每 个 数据 平面 创建 的 转发 规则 。 如 果 一 台 虚 拟 机 (虚拟 网 元 ) 
要 求 每 报 文 处 理 ， 则 控制 器 将 转发 这 个 虚拟 网 络 的 所 有 到 达 流 量 到 运行 相应 虚拟 网 
元 的 虚拟 机 。 除 了 对 流 编 程 外 ， 这 个 控制 器 也 能 够 为 流 设置 策略 。 例 如 ， 为 每 条 流 
或 一 组 流 指定 一 个 最 小 的 带宽 [MCK 08] 。 

在 XenFlow 架构 中 ， 一 个 虚拟 网 络 可 选择 与 一 个 中 心 式 或 一 个 分 布 式 控 制 平面 
一 起 工作 。 为 建立 采用 分 布 式 控制 的 一 个 虚拟 网 络 ， 在 属于 那个 虚拟 网 络 的 每 个 物 
理 路 由 器 (节点 ) 中 实例 化 一 个 虚拟 路 由 器 。 每 台 虚 拟 路 由 器 与 dom0 中 的 相应 
XenFlow 控制 器 交互 ， 通 知 转发 规则 。 但 是 ， 在 中 心 式 控制 模式 中 ，XenFlow 的 行 
为 就 像 一 台 OpenFlow 交换 机 。 因 此 ， 为 建立 采用 中 心 式 控制 的 一 个 虚拟 网 络 ， 实 
例 化 带 有 一 个 主 控制 器 的 一 台中 间 设 备 。 这 个 中 央 控 制 器 与 驻 留 在 dom0 物理 路 由 
需 〈 寄 居 虚 拟 网 元 ) 中 的 个 体 XenFlow 控制 器 交互 。 在 这 种 情形 中 ， 不 需要 在 每 
个 物理 节点 中 实例 化 一 个 虚拟 机 ， 这 样 一 个 模型 类 似 于 传统 的 OpenFlow 网 络 。 
图 8. 17 给 出 带 有 三 个 虚拟 网 络 的 XenFlow 架构 ， 网 络 中 有 虚拟 交换 机 和 虚拟 路 由 
器 ， 它 们 是 可 互 操 作 的 。 使 用 不 同 虚 拟 网 络 间 的 OpenFlow 协议 ,物理 交换 机 数据 
平面 是 共享 的 。 

图 8. 17 给 出 管理 实体 ， 它 们 感知 物理 网 络 拓扑 且 由 基础 设施 管理 员 管 理 ， 由 
他 确定 合适 实例 化 或 删除 一 个 虚拟 网 络 以 及 确定 每 个 虚拟 网 络 消耗 的 物理 资源 量 。 
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图 8.17 由 虚拟 交换 机 和 虚拟 路 由 器 组 成 的 一 个 XenFlow 网 络 例子 


这 些 实体 也 负责 启动 网 络 迁 移 。 

1. 平面 隔离 和 流 的 路 由 转换 

当 使 用 一 台 OpenFlow 交换 机 时 ， 流 迁移 是 简单 平凡 的 ， 但 在 Xen FA ERE 
迁移 是 比较 复杂 的 ， 因 为 关闭 一 台 路 由 器 导致 报 文 丢失 。 不 过 ， 没 有 报 文 丢失 的 路 
由 器 迁移 是 基础 ， 且 采用 XenFlow 架构 可 达到 这 个 目标 ， 这 是 由 于 采用 了 平面 隔离 
技术 。 

每 个 虚拟 网 络 的 转发 表 由 虚拟 路 由 器 计算 得 到 ， 是 在 一 台 虚 拟 机 中 发 生 的 。 这 
个 信息 必须 被 传输 到 dom0 ， 从 而 可 在 OpenFlow 交换 机 中 构建 正确 的 转发 规则 。 
图 8. 18 给 出 XenFlow 如 何 实施 这 项 任务 。 运 行 在 虚拟 机 中 的 一 个 守护 进程 将 数据 
平面 信息 复制 到 dom0 中 的 一 个 NOX 控制 器 上 。 之 后 ， 控 制 器 使 用 规则 表 模 块 
(开发 作为 一 个 NOX 应 用 ) 将 这 些 数 据 转 换 到 流 ， 并 应 需 地 配置 OpenFlow 交换 机 。 

XenFlow 如 下 转发 数据 报 文 。 到 达 dom0 的 一 条 报 文 被 直接 转发 ， 如 果 它 匹配 
流 表 中 的 任何 流 ; 和 否则， 为 了 由 控制 器 定义 该 报 文 的 路 径 ， 将 之 转发 到 控制 器 。 在 
这 种 情形 中 ，NOX 控制 器 从 报 文中 抽取 12 个 OpenFlow 字段 ， 查 询 规 则 表 ， 定 义 
报 文 所 属 的 网 络 和 那个 网 络 相应 的 转发 规则 。 此 后 ， 控 制 器 在 OpenFlow 交换 机 的 
流 表 中 插入 一 条 新 流 。 重 要 的 是 指出 ， 报 文 到 达 dom0 时 ， 带 有 虚拟 路 由 器 的 目的 
介质 访问 控制 (MAC) 地 址 ， 且 在 由 OpenFlow 交换 机 转发 之 前 ， 这 个 地 址 必须 被 
修改 为 下 一 跳 MAC 地 址 。 在 节点 是 一 台 虚 拟 交换 机 的 情形 中 ， 这 项 操作 是 不 进行 
的 。 因 此 ， 这 个 模块 确保 一 条 虚拟 链 路 正确 地 映射 到 一 条 或 多 条 物理 链 路 。 

2. XenFlow 虚拟 拓扑 迁移 

在 一 个 XenFlow 网 络 中 ， 一 条 虚拟 链 路 可 被 映射 到 一 条 或 多 条 物理 链 路 。 报 文 
转发 是 由 NOX 控制 器 动态 编程 的 一 个 流 表 完 成 的 。 由 此 ， 逻 辑 拓 扑 和 物理 拓扑 是 
分 离 的 (detached)。 因 此 ， 如 图 8. 19 所 示 的 在 一 个 XenFlow 网 络 中 的 虚拟 节点 迁 


$83 系统 架构 设计 195 


虚拟 路 由 器 1 虚拟 路 由 器 2 


规则 表 更 新 守护 进程 
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\ OpenFlow 交 换 机 NOX 控 制 器 









1. 控 制 平面 迁移 


— 物理 链 路 
一 - 一 迁移 后 的 虚拟 链 路 


--- -一 迁移 前 的 虚拟 链 路 
[迁移 前 的 虚拟 网 络 流 
迁移 后 的 虚拟 网 络 流 


图 8.19 XenFlow 虚拟 拓扑 迁移 的 三 个 步骤 


移 ， 由 三 个 步骤 组 成 : 控制 平面 迁移 、 数 据 平面 迁移 和 链 路 迁移 。 以 Xen 常规 实 
况 迁 移 机 制 [CLA 05] 的 一 种 类 似 方式 ， 从 源 到 目的 物理 节点 发 生 控制 平面 迁移 。 
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在 控制 平面 迁移 之 后 ， 迁 移 虚拟 网 络 的 所 有 数据 流 必 须 被 映射 到 新 的 虚拟 拓扑 。 老 
旧 的 数据 路 径 必 须 被 转换 为 目的 物理 路 由 器 中 的 一 条 新 的 数据 路 径 。 因 此 ， 数 据 平 
面 迁 移 是 这 样 完成 的 : 与 迁移 虚拟 路 由 器 有 关 的 数据 流 表 项 ， 被 选中 并 传递 到 目的 
物理 路 由 器 ; 在 目的 地 ， 这 些 数 据 流 定义 被 映射 到 物理 路 由 器 和 虚拟 路 由 器 的 当前 
设置 上 。 由 此 ， 保 持 了 流 输入 端口 和 输出 端口 的 对 应 关系 ， 这 考虑 到 在 迁移 源 和 目 
的 地 处 的 dom0 虚拟 交换 机 。 之 后 ， 被 迁移 网 络 的 相应 流 被 添加 到 目的 dom0 Open- 
Flow 交换 机 的 流 表 。 最 后 ， 在 数据 平面 和 控制 平面 迁移 之 后 ，dom0 OpenFlow 交换 
机 和 其 他 网 络 交换 机 进行 链 路 迁移 。 链 路 迁移 在 一 个 逻辑 跳 的 虚拟 路 由 器 邻居 和 目 
的 物理 路 由 器 之 间 创 建 一 条 交换 式 路 径 。 由 此 ， 处 于 目的 物理 路 由 器 和 物理 路 由 器 
(寄居 距离 被 迁移 虚拟 路 由 器 一 跳远 的 虚拟 路 由 器 ) 之 间 路 径 上 的 物理 路 由 口中 ， 
就 定义 了 各 条 流 。 在 沿路 的 物理 路 由 器 上 应 需 地 创建 新 流 ， 要 求 一 种 自治 的 机 制 。 
这 种 机 制 是 这 样 使 用 的 ， 在 路 径 中 各 节点 的 控制 器 规则 表 上 引入 新 规则 。 


8.2.3 试验 结果 


开发 了 所 提供 架构 的 一 个 原型 ， 作 为 无 报 文 丢失 的 虚拟 路 由 器 迁移 的 概念 证 
明 。 为 评估 性 能 ， 使 用 工具 Iperf [IPE 13] 作为 一 个 报 文 产 生 器 工具 ， 使 用 Tep- 
dump [TCP 13] 来 测量 所 产生 的 、 接 收 的 和 丢失 的 报 文 量 。 报 文 丢 失 是 从 所 收集 
的 信息 中 评估 的 ， 在 负责 产生 和 接收 报 文 的 网 络 接口 上 使 用 Tcpdump。 为 评估 Xe- 
nFlow 性 能 ， 将 XenFlow 中 的 迁移 与 Xen 虚拟 化 平台 的 原生 迁移 进行 比较 。 

试验 场景 由 四 台 机 器 组 成 : 两 台 用 于 报 文 转发 ， 两 台 用 于 产生 /接收 报 文 。 两 
台 机 器 实施 转发 报 文 的 功能 ， 且 XenFlow 原型 被 安装 在 这 两 台 机 器 中 。 每 台 机 器 装 
备 有 一 个 Intel Core 2 Quad 处 理 器 和 3 个 以 太 网 接口 。 这 些 机 器 运行 Xen hypervisor 
4.0-amd64。 在 这 些 物理 机 器 之 一 中 ， 实 例 化 一 台 虚 拟 机 ， 带 有 一 个 虚拟 CPU, 
128MB 内 存 、 两 个 网 络 接口 和 Debian 2. 6- 32-5 操作 系统 ， 作 为 一 台 虚 拟 路 由 需 。 
这 些 使 用 另外 两 台 机 器 ， 装 备 有 Intel Core 2 Duo 处 理 器 ， 产 生 或 接收 报 文 ， 每 台 
机 器 装备 有 一 个 1Gbit/s 以 太 网 接口 ， 连 接 到 一 个 控制 网 络 ， 装 备 有 两 个 100Mbit/s 
以 太 网 接口 ， 与 两 台 物 理 路 由 器 通信 。 在 这 些 试验 中 ， 虚 拟 路 由 器 转发 64B 和 
1500B 的 UDP 报 文 ， 这 分 别 是 一 个 以 太 网 帧 的 最 小 和 最 大 数据 长 度 [最 大 传输 单 
元 (MTU) ] 。 

第 一 个 试验 测量 迁移 过 程 中 控制 平面 下 线 时 间 。 发 送 控制 报 文 ， 报 文 由 虚拟 机 
转发 ， 以 便 依 据 丢 失 的 控制 报 文 数 来 确定 平均 下 线 时 间 。 因 此 ， 控 制 平面 下 线 时 间 
是 由 迁移 之 前 直接 接收 到 的 最 后 一 条 报 文 的 时 间 戳 与 迁移 之 后 直接 接收 到 的 控制 报 
文 时 间 惟 之 差 给 定 的 。 图 8. 20 给 出 XenFlow 系统 和 原生 Xen 迁移 的 控制 平面 下 线 
时 间 ， 是 传输 报 文 速率 的 一 个 函数 。 结 果 表 明 ， 不 管 报 文 尺寸 为 何 ， 在 XenFlow 中 
虚拟 路 由 器 的 平均 下 线 时 间 总 小 于 5s。 但 是 ， 在 原生 Xen 迁移 中 ， 虚 拟 路 由 器 的 
平均 下 线 时 间 总 是 较 大 的 ， 范 围 为 12 ~35s。 发 生 这 个 差异 ， 主 要 有 两 个 原因 。 首 
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先 ， 在 使 用 XenFlow 的 迁移 过 程 中 ， 在 虚拟 机 内 存 中 没有 写 操 作 ， 因 为 各 报 文 是 直 
接 由 dom0 发 送 的 ， 而 在 Xen 迁移 中 ， 所 有 报 文 是 由 虚拟 机 转发 的 。 因 此 ， 在 迁移 
虚拟 机 时 ， 在 Xen 中 的 报 文 转发 产生 内 存 写 和 读 操作 。 这 些 写 和 读 内 存 操作 导致 
较 大 数量 的 污染 页 ， 结 果 ， 当 复制 虚拟 机 的 最 后 一 些 内 存 页 时 就 导致 大 的 下 线 时 
间 。 其 次 ，XenFlow 迁移 是 以 两 个 步骤 实施 的 : 迁移 虚拟 机 ， 之 后 使 用 OpenFlow 
迁移 数据 平面 ， 这 样 就 避免 了 报 文 丢失 。 在 原生 Xen 迁移 上 ， 链 路 迁移 是 通过 发 
送 ARP Reply 报 文 完 成 的 ， 目 的 是 表明 可 用 的 被 迁移 虚拟 机 中 各 个 接口 。 但 是 ， 
ARP Reply 机 制 是 基于 ARP 表 项 的 寿命 超期 的 ， 这 在 更 新 用 于 与 被 迁移 虚拟 机 通信 
的 接口 中 增加 了 时 延 。 
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图 8.20 控制 平面 下 线 时 间 
a) 64B 报 文 b) 1500B 报 文 


第 二 个 试验 评估 总 的 迁移 时 间 ， 它 建立 两 个 连续 虚拟 网 元 迁移 之 间 的 最 小 时 
间 。 总 的 迁移 时 间 考 虑 与 迁移 过 程 有 关 的 所 有 操作 的 执行 时 间 。 图 8. 21 给 出 作为 
被 传输 报 文 速率 的 一 个 函数 的 总 迁移 时 间 。 结 果 表 明 ， 相 比 Xen, XenFlow 迁移 要 
求 大 得 多 的 总 迁移 时 间 。 这 个 结果 是 预料 中 的 ， 原 因 是 XenFlow 迁移 涉及 多 个 步 
又 ， 其 中 一 个 步骤 是 原生 Xen 迁移 自己 。 部 分 额外 时 间 的 发 生 是 由 于 流 迁 移 (给 
定 在 目的 物理 路 由 器 处 重建 数据 平面 的 需要 ) 和 链 路 迁移 (负责 在 物理 网 络 之 上 
建立 虚拟 网 络 的 新 拓扑 ) 导致 的 。 图 8.21b 表明 ， 对 于 1500B 大 小 的 报 文 ， 随 着 
传输 报 文 速率 增加 ， 在 XenFlow 总 迁移 时 间 中 有 增加 。 这 是 由 于 如 下 事实 导致 的 ， 
即 当 使 用 1500B 大 小 的 报 文 时 ， 在 每 秒 大 约 8000 个 报 文 的 速率 下 ，100Mbit/s 的 链 
路 得 以 饱和 。 

第 三 个 试验 给 出 两 个 系统 迁移 过 程 中 的 报 文 丢失 数 。 图 8. 22 揭示 出 ， 在 使 用 
XenFlow 迁移 一 台 路 由 器 时 ， 没 有 报 文 丢失 。 随 着 传输 报 文 速率 增加 ， 由 Xen 原生 
迁移 产生 的 报 文 丢失 增加 ， 这 是 由 于 转发 服务 下 线 时 间 导 致 的 丢失 产生 的 ， 如 
图 8. 20 所 示 。 因 为 原生 Xen 迁移 下 线 时 间 几 乎 是 常数 ， 所 以 在 这 个 时 间 间 隔 中 丢 
失 报 文 数 随 发 送 速率 增加 而 增加 。 
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图 8.22 作为 传输 报 文 速率 的 一 个 函数 的 报 文 丢失 量 
a) 64B 大 小 的 报 文 b) 1500B 大 小 的 报 文 


8.3 h 


本 章 给 出 所 开发 架构 的 一 个 总 体 视图 。 给 出 的 第 一 个 架构 基于 Xen 虚拟 化 平 
台 。 除 了 新 的 控制 和 管理 模块 外 ， 开 发 了 集成 一 些 已 开发 功能 特征 的 一 个 模型 。 
Xen 架构 中 的 主要 模块 是 资源 管理 器 ， 其 处 理 依据 以 前 定义 的 策略 ， 将 物理 资源 分 
配 到 虚拟 网 络 。 为 观测 dom0 中 共享 带宽 、CPU 和 内 存 的 使 用 情况 ， 也 给 出 了 一 个 
模糊 控制 器 。 控 制 器 处 理 虚 拟 机 中 的 资源 消耗 ， 并 与 Xen 调度 器 交互 ， 以 确保 虚 
拟 机 的 带宽 提供 。 为 集成 这 些 模块 ， 由 所 提出 的 模块 和 ADAGA 修改 监测 功能 。 也 
添加 了 其 他 模块 ， 如 接纳 控制 器 ， 它 评估 新 的 虚拟 网 络 是 否 可 寄居 在 一 个 特定 物理 
节点 中 。 接 纳 控制 器 是 应 用 全 局 功能 的 基础 ， 它 依据 网 络 负载 重新 映射 虚拟 网 络 。 
也 为 所 提供 架构 引入 了 一 个 QoS 模块 ， 来 完成 新 架构 对 互联 网 的 需求 。 

实施 了 测试 ， 评 估 添 加 到 Xen 架构 中 的 新 模块 的 性 能 。 结 果 表 明 ， 相 比 参考 
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文献 中 的 现 有 机 制 ， 所 开发 的 机 制 性 能 较 好 。 另 外 ， 结 果 也 表明 ， 所 提供 的 接纳 控 
制 动 态 地 将 其 自己 适应 于 不 同 的 流量 需求 ， 这 保障 了 寄居 于 物理 设备 中 虚拟 网 络 数 
的 准确 控制 。 避 免 了 资源 过 载 和 欠 利 用 问题 ， 这 与 所 分 析 的 其 他 建议 是 有 区 别 的 。 
也 对 所 开发 的 QoS 模块 实施 了 测试 。 结 果 表 明 ， 与 仅 在 虚拟 网 络 内 保障 QoS 原 语 
相 比 ， 在 虚拟 网 络 间 提 供 QoS 具有 优势 。 

开发 的 第 二 个 架构 使 用 OpenFlow 技术 和 虚拟 化 工具 ， 称 作 OMNI。 因 为 Open- 
Flow 网 络 控制 是 中 心 式 的 ， 基 础 设施 控制 模块 被 放置 在 一 个 特殊 控制 器 内 ， 它 与 
FlowVisor 交互 ， 控 制 提 供给 每 个 虚拟 网 络 的 物理 资源 。 针 对 Xen 平台 开发 的 模块 
被 添加 ， 控 制 OpenFlow 网 络 中 的 资源 。 添 加 到 OMNI 中 的 另 一 项 功能 是 代理 控制 ， 
它 模拟 分 布 式 控制 。 所 实施 的 分 析 表 明了 使 用 代理 的 优势 以 及 管理 系统 对 虚拟 化 网 
络 的 影响 。 

也 设计 了 第 三 种 方法 ， 其 重点 是 在 一 个 新 的 虚拟 化 平台 中 Xen 和 OpenFlow 的 
优势 。 这 种 方法 是 一 种 混合 网 络 架 构 设 计 ， 它 将 OpenFlow 交换 矩阵 的 灵活 性 与 基 
于 Xen 平台 的 一 个 网 络 虚拟 化 分 布 式 控制 组 合 在 一 起 。 这 种 方法 称 作 XenFlow， 并 
实现 流 处 理 的 概念 ， 其 中 一 个 通用 的 网 络 节点 能 够 处 理 任何 种 类 的 流 。XenFlow 为 
迁移 虚拟 拓扑 提供 了 一 种 鲁 棒 的 和 高 效 的 方式 。XenFlow 的 主要 目标 是 在 虚拟 路 由 
器 迁移 中 取得 零 报 文 丢 失 ， 并 针对 链 路 迁移 ， 去 除 对 隧道 或 外 部 机 制 的 需要 。 该 架 
构 设 计 使 用 平面 隔离 技术 ， 用 作 NOX 控制 器 之 上 的 一 个 应 用 ， 它 基于 转发 规则 控 
制 数据 平面 。 这 些 规 则 由 运行 于 每 台 虚 拟 路 由 器 中 的 一 个 守护 进程 加 以 更 新 。 结 果 
表明 ，XenFlow 控制 平面 下 线 时 间 要 比 原生 Xen 迁移 下 线 时 间 低 高 达 30 倍 。 结 果 
也 表明 XenFlow 的 总 迁移 时 间 要 远大 于 原生 Xen 迁移 。 出 现 这 些 结果 是 由 于 Xen- 
Flow 引入 到 虚拟 拓扑 迁移 过 程 的 新 步 又， 这 是 与 Xen 的 步骤 相 比 而 言 的 。 但 是 ， 
对 于 虚拟 路 由 器 迁移 而 言 ， 增 加 总 的 迁移 时 间 不 是 一 个 重要 因素 。 它 仅 设 置 两 次 连 
续 迁 移 之 间 的 最 小 时 间 。 结 果 表 明 ，XenFlow 虚拟 路 由 器 迁移 是 在 没有 报 文 于 失 的 
情况 下 发 生 的 ， 使 这 个 架构 设计 适合 于 虚拟 网 络 场景 ， 这 与 Xen 虚拟 化 平台 的 原 
生 迁 移 的 情况 相反 。 

这 些 网 络 虚 拟 化 工具 演变 为 带 有 安全 性 的 未 来 互联 网 测试 床 [FIT 13 ] ， 该 测 
试 床 被 用 来 对 新 的 未 来 互联 网 建议 进行 试验 [GUI 13]. 
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附录 英文 缩 略语 释义 对 照 表 





i 略 语 全 R "o m 








Anomaly Detection for Autonomous mana- i : 
ADAGA 虚拟 网 络 自治 管理 异常 检测 


Cement of virtual networks 




























































AMD-V AMD Virtualization AMD 虚拟 化 
ARP Address Resolution Protocol 地 址 解析 协议 
BGP Border Gateway Protocol 边界 网 关 协 议 
CSS Cascading Style Sheets 级 联 式 风格 表 
DMA Direct Memory Access 直接 内 存 访问 
dom0 Domain 0 域 0 
DoS Denial of Service 拒绝 服务 
GUI Graphical User Interface 图 形 用 户 界面 
HTTP HyperText Transfer Protocol 超 文本 传输 协议 
ICMP Intemet Control Message Protocol 互联 网 控制 消息 协议 
ISP Internet Service Provider 互联 网 服务 提供 商 
LO Input/Output 输入 /输出 
IT Information Technology 言 息 技术 












Intel 虚拟 化 技术 


Intel Virtualization Technology 
































LAN Local Area Network 局 域 网 

Link Layer Discovery Protocol 链 路 层 发 现 协 议 
MASR Memory Allocation, Set and Read 内 存 分 配 、 设 置 和 读 取 
MMU Memory Management Unit 内 存 管理 单元 













最 大 使 用 情况 控制 器 


Maximum Usage Controller 










































Network Interface Card 网 络 接口 卡 
Operating System 操作 系统 
OSPF Open Shortest Path First 开放 最 短路 径 优先 
QoS Quality of Service 服务 质量 
Routing Information Protocol 路 由 信息 协议 
Round Trip Time 往返 时 间 
Service Level Agreement 服务 水 平 协议 
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(E) 














Single Root I/O Virtualization 


简单 对 象 访问 协议 
SR L/O 虚拟 化 















Secure Shell 





Scalable Vector Graphics 


安全 外 壳 
可 伸缩 向 量 图 形 











Transmission Control Protocol 


传输 控制 协议 











Type- Length- Value 


类 型 -长 度 - 值 








Type of Service 


服务 类 型 








TSC Time Stamp Counter 


| AY a) RIT RAE 











UDP User Datagram Protocol 用 户 数据 报 协议 
vCPU Virtual CPU 虚拟 CPU 
VLAN Virtual Local Area Network 虚拟 局 域 网 

















VM Virtual Machine 

VMM Virtual Machine Monitor 
VMS Virtual Machine Server 
VoIP Voice over IP 

VPN Virtual Private Network 


虚拟 机 

虚拟 机 监测 器 
虚拟 机 服务 器 

IP 上 的 话音 (IP 电话 ) 
虚拟 专用 网 





XML Extensible Markup Language 扩展 标记 语言 
ZFG Zero File Generator 零 文件 产生 器 





国际 信息 工程 先进 技术 译 从 


《虚拟 网 络 一 一 下 一 代 互 联网 的 多 元 化 方法 》 
(a 

《 认 知 视角 下 的 无 线 传感器 网 络 少 

《移动 云 计 算 ; 无 线 、 移动 及 社交 网 络 中 分 布 式 资源 的 开发 利用 少 
《Android 系 统 安 全 与 攻防 》 

《内 容 分 发 网 络 》 

《计算 机 网 络 仿真 OPNET 实 用 指南 》 

《移动 无 线 信道 》 ( 原 书 第 2 版 ) 

(LTE-Advanced: 面向 IMT-Advanced 的 3GPP 和 解决 方案 》 
《声学 成 像 技 术 及 工程 应 用 》 

《 认 知 无 线 电 通信 与 组 网 : 原理 与 应 用 》 
《LTE/SAE 网 络 部 团 实 用 指南 》 

《网 络 性 能 分 析 原 理 与 应 用 》 

( zx RN EC EE ERR A )) 

( 上 地 址 管理 原理 与 实 路 》 










|、 自 优化 和 和 址 总 合 》 


《无 线 传感器 及 执行 器 网 络 》 
《UMTS 中 的 WCDMA 一 HSPA 演 进 及 LTE ) ( 原 书 第 5 版 ) 
《 认 知 无 线 电 网 络 》 
网 络 融 合 一 一 服务 、 应 用 、 传 输 和 运营 支撑 》 
为 LTE: 基 于 OFDMA 和 SC-FDMA 的 无 线 接 入 》 
《高 性 能 微 处 理 器 电路 设计 》 
《 吉 规 模 集成 电路 互 连 工艺 及 设计 》 
《高 级 电子 封装 》( 原 书 第 2 版 ) 
《基于 4G 系 统 的 移动 服务 技术 》 
《移动 无 线 传感器 网 一 一 技术 、 
(UV El Tell: 
《UMTS-HSDPA 系 统 的 TCP 性 能 》 
《基于 射频 工程 的 UMTS 空中 接 所 设计 与 网 络 运行 》 
ARI E 全 |P 的 3GCDMA 网 络 》 
环境 网 络 : 支持 下 一 代 无 线 业 务 的 多 域 协 同 网 络 》 
《基于 蜂窝 系统 的 MS 一 融合 电信 领域 的 VOIP 演 进 》 
《 蜂 帘 网 络 高 级 规划 与 优化 2G12.5G/13G/ 一 一 向 4G 的 演进 》 
pe 设计 与 应 用 》 
VOS 电路 设计 》 


》 
人 范围 》 


